5月20日,阿里巴巴正式发布新一代千问旗舰模型Qwen3.7-Max,在三方机构Arena全球大模型盲测总榜中,Qwen3.7-Max超过Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1,与GPT、Claude、Gemini最强模型接近,位列国产模型第一。千问3.7面向当下智能体(Agent)全新设计,实现了编程、推理等核心能力的持续突破,甚至可全自主完成35小时的超长程智能体复杂任务,推理速度较原版本提升10倍。

当下,编程能力已成为衡量大语言模型的核心指标,Qwen3.7-Max较上代模型实现了大幅提升,从前端原型开发到复杂的多文件工程均能驾驭。在评估AI解决真实世界编程任务的SWE-bench系列测评、面向真实科学问题的编程测评SciCode中,Qwen3.7-Max超越了Claude Opus 4.6-Max、Kimi-K2.6、DeepSeek-v4-Pro-Max等模型。千问3.7是出色的编程智能体,可自主编写代码创造工具,精准执行任务,完成复杂编程的自我纠错迭代,就像个资深工程师,跑完从需求分析到测试迭代的全流程,自主产出可用的工业级成果。
一、国产模型第一,综合实力比肩GPT/Claude
在Arena全球大模型盲测总榜中,Qwen3.7-Max展现了强大的综合实力,位列国产模型第一,超过Kimi-K2.6、DeepSeek-v4-pro、GLM-5.1等国产竞争对手,与GPT、Claude、Gemini等国际顶尖模型接近。这一成绩标志着国产大模型在综合能力上已达到世界一流水平,在某些细分领域甚至实现了超越。
千问3.7面向智能体(Agent)全新设计,实现了编程、推理等核心能力的持续突破。编程方面,纯编程能力位列全球第10,支持代码生成、调试和优化;数学推理方面,在数学推理领域位列全球第7,具备强大的数值计算和公式推导能力。这些核心能力的突破,为智能体完成更复杂、更长周期的任务打下了坚实基础。
二、35小时长程执行,智能体能力突破极限
实战任务测试中,Qwen3.7-Max展示了当下智能体所能达到的长程任务极限。在一个模型训练时从未接触过的全新硬件平台——平头哥真武M890芯片上,千问3.7自主完成了一个复杂的推理内核优化任务。在没有任何性能分析数据、硬件文档或新架构的示例内核情况下,千问3.7仅从一个包含任务描述、SGLang Triton参考实现和评测脚本的空白工作空间出发,从"零"开始持续编程35小时,独立进行了432次内核评估、1158次工具调用,完全自主地完成了编写、编译、性能分析与迭代改进的全流程,最终实现了推理速度提升10倍的突破。
千问3.7具有极强的Agent能力,并涌现出跨多种智能体框架的泛化能力,在Claude Code、OpenClaw、Qwen Code等框架下都能稳定发挥,有望成为各类智能体系统的可靠底座。这种跨框架泛化能力意味着开发者可以根据需求灵活选择部署环境,而不必担心模型能力受限。
三、编程+办公双强,企业级应用新选择
通过MCP集成和多智能体协作,Qwen3.7-Max在企业级办公场景实现工作流自动化,在办公自动化基准SpreadSheetBench-v1上斩获87分,处于顶尖水平,是可靠的办公与生产力助手。以往需专业团队耗时一至两周的复杂项目,现由Qwen3.7-Max驱动的智能体可在数小时内完成端到端交付闭环。
不断提升的编程能力,也为智能体完成更复杂、更长周期的任务打下坚实基础。千问3.7是出色的编程智能体,可自主编写代码创造工具,精准执行任务,完成复杂编程的自我纠错迭代,就像个资深工程师,跑完从需求分析到测试迭代的全流程,自主产出可用的工业级成果。这种"资深工程师"级别的表现,让Qwen3.7-Max成为企业级应用的理想选择。
Qwen3.7-Max即将通过阿里云百炼提供服务,用户可以通过阿里云百炼API调用。对于需要长程执行、复杂编程、办公自动化的企业用户来说,Qwen3.7-Max提供了一个强大的智能体底座,有望在各类智能体系统中发挥关键作用。


