Claude Opus 4.7 正式发布:比聪明更重要的,是靠谱

Anthropic 于 2026 年 4 月正式发布 Claude Opus 4.7,这是其旗舰模型系列的最新迭代。在公告中,Anthropic 罕见地坦言:「这并非我们最强大的模型。」那个传说中更强的 Claude Mythos Preview 仍按兵不动。但即便如此,Opus 4.7 依然引发了业内极大关注——因为它解决的不是「更聪明」的问题,而是「更靠谱」的问题。

Anthropic 今年的发布节奏依然凶猛,几乎每隔一天就有新动作落地。Claude Opus 4.7 正式发布带来了炸裂级跑分:在软件工程基准 SWE-bench Pro 上,4.7 从前代的 53.4% 跃升至 64.3%,单代涨幅近 11 个百分点,一举超越 GPT-5.4(57.7%)和 Gemini 3.1 Pro(54.2%)。视觉推理基准 CharXiv 从 69.1% 跳至 82.1%,法律 AI 平台 Harvey 的 BigLaw 基准更拿下 90.9%,展现了在专业法律场景的顶尖实力。

Claude Opus 4.7

一、硬核实测:编程、视觉与法律领域全面超越

Claude Opus 4.7 的跑分表现堪称炸裂。在软件工程基准 SWE-bench Pro 上,Opus 4.7 从前代 53.4% 一举跃升至 64.3%,单代涨幅接近 11 个百分点——这意味着它能够独立完成此前需要人类工程师密切监督才能处理的复杂编码任务,开发者现在可以放心地将最难的工作直接交给它。

在视觉推理维度,CharXiv 基准从 69.1% 跳至 82.1%,背后是新增的 2576 像素长边识别能力,清晰度较前代提升超过 3 倍。这意味着模型能够捕捉更丰富的图像细节,适用于工程图纸审查、高分辨率 UI 分析乃至卫星图像解读等专业场景。

与此同时,法律 AI 平台 Harvey 的 BigLaw 基准拿下 90.9%,证明其在合同审查、判例研究、合规检查等高价值法律场景具有极高的实用价值。工具调用评测 MCP-Atlas 跑出 77.3%,Notion 团队实测工具错误率降至原来的三分之一。

二、气质改变:从「尽力回答」到「不乱编」的可靠性飞跃

数字之外,更值得关注的是 Opus 4.7 的「气质」变化。Replit 负责人在测试后直言:「它会在技术讨论中反驳我,帮我做出更好的决定,真的像一个更好的同事。」数据科学平台 Hex 发现,4.7 遇到缺失数据会直接报错,而非像前代那样塞一个「看似合理但完全错误」的备选值。

Vercel 甚至发现了一个全新行为:Opus 4.7 会在动手写系统级代码之前,先自己做数学证明,确保逻辑正确后再落笔。当然,这种「不凑数」的策略也有代价——在 Agentic 搜索评测 BrowseComp 上,4.7 从 83.7% 小幅回落至 79.3%,被 GPT-5.4 和 Gemini 反超。但这恰恰是它「不肯乱编答案」的性格使然:遇到缺失信息宁可报错,也不愿给出一个看似正确实则荒谬的结论。

任务韧性同样大幅提升。Notion 团队测试显示工具错误率降至原来的三分之一,遇到工具链崩溃时,Opus 4.7 能自行绕过障碍继续完成任务,而非直接中断报错。

三、成本与生态:Token 消耗上涨,但定价持平

变强是有代价的。Opus 4.7 引入了全新分词器,同样的文本会产生比原来多 1 到 1.35 倍的 Token。加之它在复杂任务中本就倾向于「多想一会儿」,实际消耗几乎必然上升。为此 Anthropic 新增了 xhigh 超高级别思考强度选项,Claude Code 所有套餐已默认拉至该档位,同时推出深度审查指令 /ultrareview、面向 Max 用户的 Auto Mode 扩展,以及帮助开发者管控 Token 支出的「任务预算」功能公测版。

不过好消息是,Opus 4.7 的 API 定价与 Opus 4.6 持平:每百万输入 Token 5 美元,每百万输出 Token 25 美元。同时支持 Anthropic API、Amazon Bedrock、Google Cloud Vertex AI 和 Microsoft Foundry 多平台接入。那个更强的 Mythos Preview,本月刚以「Project Glasswing」的名义小范围开放给企业用于网络安全研究——因能力过强、安全评估尚未完成,暂不公开发布。今天的 Opus 4.7,是 Anthropic 高频交付节奏下最新的一块压舱石。而 Mythos 迟早会来——到那时,现在看起来已经很能打的 4.7,或许只是个开端。

AD:精心整理了2000+好用的AI工具!点此获取

相关推荐

1 1

免费AI工具合集,点击进入

AI对话

玉米AI助手