4月20日,阿里正式发布千问系列新一代旗舰模型Qwen3.6-Max-Preview预览版。权威三方评测榜单Artificial Analysis显示,Qwen3.6-Max-Preview性能表现超过GLM5.1、MiniMax-M2.7等主流模型,登顶当前最佳国产大模型,并在SuperGPQA、QwenChineseBench等专业基准测试中斩获新高,指令遵循能力也有明显提升。这也是继Qwen3.6-Plus、Qwen3.6-35B-A3B开源模型之后,千问3.6系列的最新重磅力作。自4月初至今不到三周,阿里已连推四款Qwen3.6系列模型,密度史无前例,意图全面覆盖从轻量到旗舰、从开源到闭源的所有开发者需求。

一、登顶Artificial Analysis,超越GLM5.1与MiniMax-M2.7
Artificial Analysis是全球最具权威性的大模型评测平台之一,其综合榜单由全球用户在真实场景中使用后评分生成,能够客观反映模型在各类任务中的实际表现。在本次评测中,Qwen3.6-Max-Preview一举超越GLM5.1、MiniMax-M2.7,登顶最佳国产大模型,位居当前全球大模型第一梯队。这一成绩标志着阿里巴巴在大模型研发综合实力上已处于国内最前沿。
值得注意的是,Qwen3.6-Max-Preview并非千问3.6系列的唯一亮点。就在本月早些时候,Qwen3.6-Plus已登顶全球最大三方API调用平台OpenRouter的日榜、周榜和趋势榜三项冠军,Qwen3.6-35B-A3B则登顶HuggingFace全球开源大模型榜单榜首,加上本次Max版横空出世,千问3.6系列形成了全面开花的态势。
二、智能体编程突破:从"能写"到"能交付"
本次更新最受关注的核心突破在于智能体编程能力的显著提升。阿里官方表示,Qwen3.6-Max-Preview在智能体编程任务中的表现取得了"显著进步",能够更好地理解复杂的多步骤编程需求,生成更高质量的代码,并在真实场景中表现出更好的任务分解与执行能力。在SuperGPQA(数学推理)、QwenChineseBench(中文知识)等专业基准测试中,该模型同样斩获新高。
事实上,早在4月初Qwen3.6-Plus发布时,该模型就已在国际知名大模型竞技场Arena的编程能力子榜中排名中国第一、全球第二,将阿里推上"编程能力最强AI机构"的位置。Qwen3.6-Max-Preview在此基础上进一步强化,有望将这一优势继续扩大。
在开发者实际体验中,Qwen3.6-Max-Preview展现了比前代更稳定的代码生成质量和更强的上下文记忆能力,能够在长程任务中保持逻辑一致,减少"中途跑偏"的现象,整体使用体验更加接近"可信赖的开发助手"定位。
三、三周内四连发:千问3.6的完整布局
从4月初至今,阿里在不到三周时间内连推四款Qwen3.6系列模型,密度罕见:首先是Qwen3.6-Plus高性能通用语言模型,随后是Qwen3.6-Flash轻量版;接着是4月17日开源的Qwen3.6-35B-A3B混合专家模型,主打轻量高效与多模态;最后是本次发布的Qwen3.6-Max-Preview旗舰预览版。
这一"四连发"的节奏背后,是阿里对不同开发者群体的精准覆盖:开源版面向需要本地部署的团队,Flash面向低延迟场景,Plus版面向通用应用开发者,Max版则面向对性能有极致要求的企业级客户和头部AI应用。随着Qwen3.6-Max-Preview的发布,国产大模型竞争也正式进入新一轮"旗舰对决"阶段。企业和开发者现可在Qwen Studio体验对话,也即将通过阿里云百炼API调用该模型。


