近日,AI创业公司Anthropic在首届开发者大会上推出了Claude 4系列AI模型,包括Claude Opus 4和Claude Sonnet 4。该系列模型在多项基准测试中达到业界领先水平,尤其在编程任务中表现卓越,被认为是目前全球最强大的编程AI模型。
1. 模型性能卓越
Claude 4系列在多个行业基准测试中表现出色。在SWE-bench软件工程流程测试中,Claude Opus 4达到72.5%的成绩,Claude Sonnet 4也取得了72.7%的成绩,均超越了OpenAI的GPT-4.1和谷歌的Gemini 2.5 Pro。此外,Claude Opus 4在Terminal-bench命令行操作能力测试中获得43.2%的分数,同样领先于其他竞争对手。
2. 长期任务执行能力强
Claude Opus 4能够持续工作数小时,在需要数千步骤的长期任务中保持稳定表现。例如,Rakuten在实际测试中发现,Claude Opus 4可以独立稳定地连续工作7小时,完成复杂的开源项目重构任务。这一能力为AI代理的应用范围带来了革命性扩展。
3. 安全性与可靠性提升
Anthropic为Claude 4系列设置了更严格的安全防护机制。Opus 4被归类为ASL-3安全等级,公司采取了多项措施以降低潜在风险,包括引入“思维摘要”功能,提高模型的可解释性和透明度。此外,与Sonnet 3.7相比,Claude 4系列减少了65%的捷径或漏洞行为。
4. 用户体验优化
Claude 4系列提供了两种模式供用户切换,分别是近乎即时的回应以及深入推理的延伸性思考。此外,它们在指令遵循、记忆力等方面都有显著提升。Claude Sonnet 4作为Sonnet 3.7的迭代版本,不仅在编程领域表现出色,还提供了更快的响应时间和增强的对齐能力。
5. 商业模式与市场定位
Claude Opus 4和Claude Sonnet 4分别面向付费和免费用户。Opus 4的API定价为每百万个输入/输出token分别为15美元/75美元,Sonnet 4为3美元/15美元。这种灵活且具有竞争力的定价策略,有助于Anthropic在AI市场中吸引更多用户。
Claude 4系列的推出,标志着Anthropic在AI领域迈出了重要一步,其强大的编程能力和长期任务执行能力,为AI的应用和发展带来了新的可能性。