第三方评测机构Artificial Analysis发布最新全球大模型榜单,Qwen3.7-Max以56.6分的成绩位列全球第五、国产第一,性能接近GPT、Claude、Gemini的最强模型。这是国产大模型首次进入全球前五,标志着中国AI技术已跨入世界顶级阵营。

一、榜单解读:56.6分意味着什么
Artificial Analysis是全球最具权威性的第三方AI评测机构之一,以工程化评测标准著称。其榜单综合考量模型在推理能力、编程能力、多语言处理、指令遵循等多个维度的表现,得分具有较高参考价值。
Qwen3.7-Max的56.6分意味着什么?它标志着国产模型已经跨越了「可用」到「好用」的鸿沟,正式进入全球顶级模型的「俱乐部」。此前,全球前五的席位长期被OpenAI、Anthropic、Google等美国公司占据,Qwen3.7-Max的突破具有里程碑意义。
在具体评测项目中,Qwen3.7-Max表现亮眼:在Kernel Bench L3测试中展现卓越的GPU内核级优化能力;在GPQA Diamond、HLE、HMMT、IMOAnswerBench等复杂推理基准中,全面超越Claude-Opus4.6及所有已公开的国产模型;在IFBench指令遵循评测中得分79.1分,创历史新高。
二、技术亮点:专为智能体时代设计
与以往追求「对话能力」的模型不同,Qwen3.7-Max是阿里面向智能体时代设计的最新旗舰模型。其核心突破集中在任务执行维度:能够独立完成长达35小时、超过1000次工具调用的企业级复杂任务。
在编程智能体能力方面,Qwen3.7-Max表现尤为突出。在SWE-Pro、SWE-Multilingual以及Terminal Bench 2.0-Terminus(得分69.7)等编程评测中,超越DeepSeek-v4-pro-Max、Claude-Opus4.6等强劲对手。这意味着模型不仅能「聊代码」,更能真正「写代码、调代码、修代码」。
多语言能力同样出色。在WMT24++与MAXIFE等多语言理解与翻译权威测评中,Qwen3.7-Max位居前列,覆盖中英日韩等主流语言,为全球化应用奠定基础。
三、价格与接入:百炼平台已上线
目前,Qwen3.7-Max已在阿里云百炼平台上线,支持API调用与Token Plan订阅两种模式。API调用价格为输入12元/百万Tokens、输出36元/百万Tokens,相较国际同类模型具有明显价格优势。
对于个人用户,千问APP已免费开放Qwen3.7-Max体验,无需编程基础即可感受顶级模型的对话能力。对于企业用户,百炼平台提供完善的工具链支持,包括智能体编排、知识库接入、多模态处理等企业级能力。
从技术路线看,Qwen3.7-Max的成功折射出国产大模型的深层转型:从单纯追求对话交互能力,转向构建具备实际生产力的AI工具系统。这种「从聊天到执行」的转变,正是2026年大模型竞争的主旋律。


