近日,中国人工智能初创公司深度求索(DeepSeek AI)正式发布了DeepSeek-V3.2系列模型,包括面向日常应用的DeepSeek-V3.2和专为复杂推理任务设计的DeepSeek-V3.2-Speciale。新模型引入创新的稀疏注意力机制(DSA),不仅提升了长文本任务的效率,还大幅降低了API成本。DeepSeek-V3.2-Speciale在高难度推理任务中表现出色,甚至超越了GPT-5。此外,该模型还提供了开源内核和演示代码,支持研究人员和企业进行商业部署。
一、技术创新:稀疏注意力机制的突破
DeepSeek-V3.2系列的核心技术之一是稀疏注意力机制(DSA)。该机制通过“闪电索引器”和细粒度选择,实现了细粒度稀疏注意力,大幅提升了长文本处理的推理和训练效率。在128K token的预填充和解码成本测试中,V3.2相较于前代V3.1-Terminus分别降低了42.8%和50%。这种高效的注意力机制使得模型在处理长上下文任务时更加经济且高效。
二、性能飞跃:推理能力比肩顶尖闭源模型
在公开的推理基准测试中,DeepSeek-V3.2的整体性能达到了GPT-5的水平,仅略低于Google的Gemini-3.0-Pro。而其高计算增强版DeepSeek-V3.2-Speciale更是将开源模型的推理能力推向极致。该版本在国际数学奥林匹克(IMO)、国际信息学奥林匹克(IOI)等高难度赛事中斩获金牌,在AIME 2025测试中达到96.0%的通过率,超越了GPT-5的94.6%。这标志着开源模型在核心推理能力上已能与顶尖闭源商业模型并驾齐驱。
三、成本优势:API成本降低50%
DeepSeek-V3.2的发布不仅在技术上取得了突破,在成本控制上也实现了重大进展。该系列模型的API成本相比前代大幅降低50%以上。在缓存命中场景下,成本低至0.07美元/百万token。这一成本优势使得依赖长上下文处理和高吞吐量的商业应用更加经济可行,为大规模商业部署提供了有力支持。
四、开源赋能:助力全球AI研究与应用
DeepSeek-V3.2系列的开源策略为全球AI研究和应用注入了新的活力。其权重文件已在HuggingFace和ModelScope平台开源,供全球开发者和研究者免费下载使用。此外,DeepSeek还提供了开源内核和演示代码,支持研究人员和企业进行商业部署,进一步推动了开源AI生态的发展。


