参数破万亿！阿里发布Qwen3-Max-Thinking，国产推理模型首次比肩GPT-5.2

近日，阿里巴巴正式发布千问系列旗舰推理模型Qwen3-Max-Thinking，该模型总参数量突破万亿大关，预训练数据量达36万亿Tokens，在复杂推理、事实知识及智能体能力等核心维度实现跨越式升级。在19项国际权威基准测试中，其综合性能已能与国际顶尖模型GPT-5.2-Thinking、Claude-Opus-4.5及Gemini 3 Pro并驾齐驱，甚至在多项关键指标上实现超越，标志着国产大模型在推理领域迈入全球第一梯队。

一、万亿参数规模奠定技术底座

Qwen3-Max-Thinking是阿里迄今为止规模最大的推理模型，总参数量超过1万亿。如此庞大的参数规模配合36T Tokens的预训练数据，为模型提供了强大的知识储备与表达能力。据官方介绍，该模型通过更大规模的强化学习后训练，实现了在事实理解、多步逻辑推演、指令精准执行等方面的显著突破。值得注意的是，阿里CEO吴泳铭此前已宣布公司正推进三年3800亿元的AI基础设施建设计划，这一投入规模与谷歌、Meta等全球科技巨头处于同一量级，为模型研发提供了坚实的算力支撑。参数破万亿！阿里发布qwen3 Max Thinking，国产推理模型首次比肩gpt 5.2

二、"测试时扩展"技术革新推理机制

区别于传统AI模型并行采样、重复推导的"暴力计算"方式，Qwen3-Max-Thinking创新引入"测试时扩展"（Test-Time Scaling）技术。该技术通过"经验提取"式的自我反思机制，对前期推理结果进行总结迭代，避免冗余计算，在相同算力下聚焦未解决难点。据阿里公布的测试数据，这一技术使GPQA科学知识测试得分从90.3提升至92.8，LiveCodeBench编程测试从88.0升至91.4，显著提升了模型在科学推理与代码生成领域的专业能力。

三、原生智能体能力实现"边用边思"

面向智能体（Agent）时代，Qwen3-Max-Thinking原生增强了自主调用工具的能力。模型可根据任务需求，自适应选择并调用搜索引擎、个性化记忆库及代码解释器，实现"边思考边使用工具"的闭环推理流程。经工具使用微调后，模型在"人类最后的测试"（HLE）工具调用基准中以58.3分远超GPT-5.2-Thinking的45.5分和Gemini 3 Pro的45.8分，创下当前全球最高纪录。同时，该能力显著降低了模型幻觉，使其在处理真实世界复杂任务时更加智能可靠。参数破万亿！阿里发布qwen3 Max Thinking，国产推理模型首次比肩gpt 5.2

四、多项权威评测刷新全球纪录

在性能比拼中，Qwen3-Max-Thinking展现出强劲的竞争力。除HLE基准测试领先外，该模型在IMO级数学推理测试中获91.5分登顶，预览版更曾拿下AIME 25与HMMT 25双满分。在GPQA Diamond科学知识测试、IMO-AnswerBench数学推理测试、LiveCodeBench编程测试等核心指标上均领先于GPT-5.2与Gemini 3 Pro。目前，用户可通过千问PC端、网页端免费体验该模型，企业用户则可通过阿里云百炼获取API服务。

AD：精心整理了2000+好用的AI工具！点此获取

参数破万亿！阿里发布Qwen3-Max-Thinking，国产推理模型首次比肩GPT-5.2

一、万亿参数规模奠定技术底座

二、"测试时扩展"技术革新推理机制

三、原生智能体能力实现"边用边思"

四、多项权威评测刷新全球纪录

腾讯搜狗输入法20.0重磅发布：全面AI化重塑输入体验日均语音调用近20亿次

Kimi Code重磅登场：国产AI编程工具迈入"看图写代码"时代

玉米AI助手

参数破万亿！阿里发布Qwen3-Max-Thinking，国产推理模型首次比肩GPT-5.2

一、万亿参数规模奠定技术底座

二、"测试时扩展"技术革新推理机制

三、原生智能体能力实现"边用边思"

四、多项权威评测刷新全球纪录

腾讯搜狗输入法20.0重磅发布：全面AI化重塑输入体验 日均语音调用近20亿次

Kimi Code重磅登场：国产AI编程工具迈入"看图写代码"时代

相关推荐

玉米AI助手

搜索

参数破万亿！阿里发布Qwen3-Max-Thinking，国产推理模型首次比肩GPT-5.2

参数破万亿！阿里发布Qwen3-Max-Thinking，国产推理模型首次比肩GPT-5.2

腾讯搜狗输入法20.0重磅发布：全面AI化重塑输入体验日均语音调用近20亿次