在8月28日发布的中文多模态视觉语言模型测评基准(SuperCLUE-VLM)榜单中,Gemini-2.5-Pro以总分74.99分位居第一,OpenAI的GPT-5(high)以68.59分排在第二位。该评测基准基于中文场景特点,围绕基础认知、视觉推理和视觉应用三大核心维度构建评测体系,力求为多模态视觉语言模型的发展提供客观、公正的评估标准。此次评测涵盖了包括Claude-Opus-4.1、Gemini-2.5-Pro、GPT-5(high)、ERNIE-4.5-Turbo-VL、Doubao-Seed-1.6-thinking、hunyuan-t1-vision、Qwen-V1-Max-Latest等在内的15个多模态模型,涵盖国内外主流模型。
一、评测体系与维度
SuperCLUE-VLM评测基准围绕基础认知、视觉推理和视觉应用三大核心维度构建评测体系。基础认知主要考察模型对基本视觉元素的理解和识别能力;视觉推理则侧重于模型对复杂视觉场景的分析和推理能力;视觉应用则更关注模型在实际任务中的表现,如文档处理、视频管理、学习解题等核心任务场景。
二、评测结果
在此次评测中,Gemini-2.5-Pro以总分74.99分位居第一,展现出其在多模态视觉语言模型领域的强大实力。OpenAI的GPT-5(high)以68.59分紧随其后,排名第二。百度的ERNIE-4.5-Turbo-VL则以66.47分的成绩并列位居国内模型第一,显示出国内头部模型在视觉推理、视觉应用等高阶任务上的显著进步。
三、Gemini-2.5-Pro的优势
Gemini-2.5-Pro在多个评测维度中表现出色,尤其是在视觉推理和视觉应用方面。其强大的多模态能力使其能够在复杂的视觉场景中进行准确的分析和推理,并在实际应用中展现出高效的性能。这一优势使其在众多参评模型中脱颖而出。
此次SuperCLUE-VLM评测榜的发布,为多模态视觉语言模型的发展提供了重要的参考和指导。Gemini-2.5-Pro的优异表现不仅展示了其在技术上的领先地位,也为行业树立了新的标杆。同时,国内模型如ERNIE-4.5-Turbo-VL等在评测中的出色表现,也凸显了中国在多模态大模型领域的竞争潜力。


