参数破万亿!阿里发布Qwen3-Max-Thinking,国产推理模型首次比肩GPT-5.2

近日,阿里巴巴正式发布千问系列旗舰推理模型Qwen3-Max-Thinking,该模型总参数量突破万亿大关,预训练数据量达36万亿Tokens,在复杂推理、事实知识及智能体能力等核心维度实现跨越式升级。在19项国际权威基准测试中,其综合性能已能与国际顶尖模型GPT-5.2-Thinking、Claude-Opus-4.5及Gemini 3 Pro并驾齐驱,甚至在多项关键指标上实现超越,标志着国产大模型在推理领域迈入全球第一梯队。

一、万亿参数规模奠定技术底座

Qwen3-Max-Thinking是阿里迄今为止规模最大的推理模型,总参数量超过1万亿。如此庞大的参数规模配合36T Tokens的预训练数据,为模型提供了强大的知识储备与表达能力。据官方介绍,该模型通过更大规模的强化学习后训练,实现了在事实理解、多步逻辑推演、指令精准执行等方面的显著突破。值得注意的是,阿里CEO吴泳铭此前已宣布公司正推进三年3800亿元的AI基础设施建设计划,这一投入规模与谷歌、Meta等全球科技巨头处于同一量级,为模型研发提供了坚实的算力支撑。参数破万亿!阿里发布qwen3 Max Thinking,国产推理模型首次比肩gpt 5.2

二、"测试时扩展"技术革新推理机制

区别于传统AI模型并行采样、重复推导的"暴力计算"方式,Qwen3-Max-Thinking创新引入"测试时扩展"(Test-Time Scaling)技术。该技术通过"经验提取"式的自我反思机制,对前期推理结果进行总结迭代,避免冗余计算,在相同算力下聚焦未解决难点。据阿里公布的测试数据,这一技术使GPQA科学知识测试得分从90.3提升至92.8,LiveCodeBench编程测试从88.0升至91.4,显著提升了模型在科学推理与代码生成领域的专业能力。

三、原生智能体能力实现"边用边思"

面向智能体(Agent)时代,Qwen3-Max-Thinking原生增强了自主调用工具的能力。模型可根据任务需求,自适应选择并调用搜索引擎、个性化记忆库及代码解释器,实现"边思考边使用工具"的闭环推理流程。经工具使用微调后,模型在"人类最后的测试"(HLE)工具调用基准中以58.3分远超GPT-5.2-Thinking的45.5分和Gemini 3 Pro的45.8分,创下当前全球最高纪录。同时,该能力显著降低了模型幻觉,使其在处理真实世界复杂任务时更加智能可靠。参数破万亿!阿里发布qwen3 Max Thinking,国产推理模型首次比肩gpt 5.2

四、多项权威评测刷新全球纪录

在性能比拼中,Qwen3-Max-Thinking展现出强劲的竞争力。除HLE基准测试领先外,该模型在IMO级数学推理测试中获91.5分登顶,预览版更曾拿下AIME 25与HMMT 25双满分。在GPQA Diamond科学知识测试、IMO-AnswerBench数学推理测试、LiveCodeBench编程测试等核心指标上均领先于GPT-5.2与Gemini 3 Pro。目前,用户可通过千问PC端、网页端免费体验该模型,企业用户则可通过阿里云百炼获取API服务。

AD:精心整理了2000+好用的AI工具!点此获取

相关推荐

1 1

免费AI工具合集,点击进入

AI对话

玉米AI助手