Claude Opus 4.7：编程基准暴涨 7 分，Anthropic 却说"这还不是我们最强的"

87.6%。

这是 Claude Opus 4.7 在 SWE-bench Verified 上的得分。一个月前，Opus 4.6 的成绩是 80.8%。

你可能觉得，不就涨了 7 分吗？

但如果你了解 SWE-bench 这个基准测试——它要求模型独立修复 GitHub 上真实的开源项目 Bug，不是写 Hello World，不是补全一行代码，而是读懂几千行代码的上下文，定位问题，写出能通过测试的补丁——你就知道，80 分到 88 分之间的距离，不亚于高考数学从 130 分冲到 145 分。

更耐人寻味的是，Anthropic 在发布博客里轻描淡写地加了一句：Opus 4.7 "less broadly capable" than Claude Mythos Preview。

翻译成大白话就是：这已经是我们公开发售的最强模型了，但我们手里还有一张没打出来的牌。

昨天（4 月 16 日），Anthropic 正式发布了 Claude Opus 4.7。今天我们来拆解一下：这个模型到底强在哪？弱在哪？以及 Anthropic 这步棋，到底在下什么？

编程能力到底强在哪？

先上硬数据。

SWE-bench 有两个版本：Verified（经过人工筛选的题集）和 Pro（更难的子集）。Opus 4.7 在这两个版本上的表现，都是目前公开可用模型里最好的。

基准测试	Opus 4.7	Opus 4.6	GPT-5.4	Gemini 3.1 Pro
SWE-bench Verified	87.6%	80.8%	—	80.6%
SWE-bench Pro	64.3%	53.4%	57.7%	54.2%
CursorBench	70%	58%	—	—
Terminal-Bench 2.0	69.4%	65.4%	75.1%	68.5%

看到没有？SWE-bench Pro 从 53.4% 跳到 64.3%，接近 11 个百分点。这意味着什么？

打个比方。SWE-bench Verified 像期中考试，考的是"你能不能修好一个标准的 Bug"。而 SWE-bench Pro 像期末考试的附加题——那种需要你理解项目架构、跨文件追踪依赖、还得考虑边界情况的硬茬。

Opus 4.6 在这类硬茬上，答对率刚过一半。Opus 4.7 直接拉到了近三分之二。

更有说服力的是 CursorBench。这不是学术基准，而是在 Cursor 编辑器里的真实编程任务——你在日常工作中让 AI 帮你写代码，能搞定多少。从 58% 到 70%，这 12 个百分点的提升，你每天都能感受到。

数据说话

Anthropic 还提到了一个有趣的内部测试：一个 93 个真实编程任务的测试集上，Opus 4.7 比 Opus 4.6 提升了 13%。其中有 4 个任务，Opus 4.6 和 Sonnet 4.6 都做不出来，但 Opus 4.7 做出来了。这不是"做得更快"，而是"以前做不到，现在能做到"。

不过有一个数据值得注意：Terminal-Bench 2.0 上，GPT-5.4 以 75.1% 领先 Opus 4.7 的 69.4%。这个测试侧重终端环境下的交互式编程，说明在某些特定场景下，OpenAI 仍然有优势。

但整体来看，趋势是清晰的：Opus 4.7 在编程基准上全面领跑。

编程基准的每一分，背后都是工程师省下的一小时。

眼睛升级了，意味着什么？

Opus 4.7 还悄悄做了一件大事：图像分辨率从 1,568 像素（长边）跳到了 2,576 像素，大约 3.75 兆像素。提升了 3 倍多。

这是什么概念？

之前的 Claude 看图，就像你不戴眼镜看路牌——大字能认出来，小字糊成一团。现在的 Claude 看图，相当于戴上了高清眼镜，不光能看路牌，还能看清地图上的等高线。

这个提升直接体现在了 CharXiv 基准测试上。CharXiv 是一个专门测试模型理解图表能力的测试集——给你一张科研论文里的图表，问你"这张图说明了什么？"

Opus 4.7 在 CharXiv Reasoning（不使用工具）上得了 82.1%，而 Opus 4.6 只有 69.1%。

13 分的飞跃。这是所有基准测试里单项提升最大的。

实战案例

想象一下你是一名数据分析师。你把一张密密麻麻的 Excel 截图丢给 Claude，让它帮你分析趋势。之前它可能把"1,234"看成"1,284"。现在，它能看清每一个像素里的数字。对于企业里大量依赖文档截图、报表图片、UI 原型图工作的场景，这个提升是实打实的。

不过话说回来，视觉能力这个赛道，Google Gemini 3.1 Pro 仍然是标杆。在多模态综合评测（Video-MME）上，Gemini 以 78.2% 遥遥领先，Opus 4.7 还没公布同类数据。

换句话说，Opus 4.7 的"眼睛"升级了，但主要升级的是"看静态图"的能力。视频理解、多模态交互这些领域，Google 还是那个老大哥。

看得更清楚不是目的，看懂才是。而 Opus 4.7 证明了：分辨率 × 理解力，才是视觉 AI 的真正公式。

Agent 工具调用，谁是真正的王者？

2026 年，AI 模型之间的竞争已经不仅仅是"谁更聪明"了。更关键的问题是：谁能更好地"干活"？

所谓"干活"，就是 Agent 能力——模型能不能自主调用工具、串联多个步骤、完成一个完整的任务。

Opus 4.7 在这个维度上，交出了一份相当亮眼的成绩单。

Claude Opus 4.7 Agent 能力关键指标

MCP-Atlas 是一个专门测试模型工具调用能力的基准——给模型一堆 MCP 工具，看它能不能正确地选择、组合、调用这些工具来完成任务。Opus 4.7 以 77.3% 领跑所有公开可用模型，GPT-5.4 只有 68.1%。差距接近 10 个百分点。

但更让我印象深刻的不是分数本身，而是 Anthropic 提到的一个细节：

Opus 4.7 在复杂多步工作流上比 Opus 4.6 提升了 14%，同时使用了更少的 token，工具调用错误减少到了之前的三分之一。
—— Anthropic 官方博客

你品品这句话。不是"做得更多"，而是"做得更准，还更省"。

这就像一个实习生和一个高级工程师的区别。实习生也能用工具，但经常调错 API、传错参数、搞出一堆重试。高级工程师不光工具用得对，还知道什么时候该用哪个工具，什么时候不该用。

Opus 4.7 还引入了一个新能力叫"隐式需求推断"（Implicit-need test）——模型能推断出你没有明确要求、但完成任务必须用到的工具。你说"帮我分析这个数据集"，它自己知道要先调文件读取，再调统计工具，最后调图表生成。你不用一步步教它。

常见误解

很多人以为 Agent 能力 = 能调用的工具数量。错了。真正的 Agent 能力是"调对率"和"编排能力"。一个能调 100 个工具但每 3 次就调错一次的 Agent，还不如一个只会 20 个工具但从不出错的 Agent。Opus 4.7 的进步方向，恰恰是后者。

但有一个地方 Opus 4.7 退步了：BrowseComp（网页搜索质量测试）。Opus 4.6 得了 83.7%，Opus 4.7 反而掉到了 79.3%。这可能是训练过程中对编程和工具调用能力的侧重，导致网页搜索这个子能力被"挤掉"了一些。

衡量 Agent 能力的标准，不是它能调用多少工具，而是它调错多少次。

为什么 Anthropic 说"这不是我们最强的"？

这是整个发布里最耐人寻味的部分。

Anthropic 在博客里大大方方地承认：Claude Opus 4.7 不如 Claude Mythos Preview。不是含蓄暗示，而是白纸黑字写出来，还附了对比数据。

Mythos Preview 在 SWE-bench Verified 上得了 93.9%——比 Opus 4.7 的 87.6% 高出 6 个多百分点。在 Terminal-Bench 2.0 上，Mythos 得了 82.0%，而 Opus 4.7 只有 69.4%。在 GPQA Diamond（研究生级推理）上，Mythos 得了 94.6%，也略高于 Opus 4.7 的 94.2%。

那为什么不直接发布 Mythos？

答案藏在两个字里：安全。

这里有个背景故事。2025 年底，AI 安全领域发生了一件大事——多个安全研究团队发现，当模型的通用能力达到某个临界点后，它的网络安全攻击能力会出现"涌现式"的跳跃。不是线性增长，而是突然"开窍"。

Anthropic 的 Mythos 就踩在了这条线上。

根据 Anthropic 红队测试平台的公开信息，Mythos 在网络安全相关任务上展现出了远超前代模型的能力——不仅能理解漏洞，还能设计攻击路径。这让 Anthropic 做出了一个罕见的决定：暂缓公开发布。

而 Opus 4.7 的发布，实际上是 Anthropic 在安全和能力之间找到的一个"折中点"。

insider 视角

Anthropic 在 Opus 4.7 的训练过程中，有意"差异化削减"（differentially reduce）了模型的网络安全能力。这意味着它不是简单地"阉割版 Mythos"，而是在训练阶段就刻意降低了模型在安全攻击方向上的表现，同时保留甚至增强了编程和推理能力。这是一种全新的安全工程手段。

打个比方：如果 Mythos 是一把能切一切的激光刀，那 Opus 4.7 就是同一把刀，但加了一个物理限制器——切菜、切肉、切木头都没问题，但切不了保险柜的锁。

Anthropic 还同步推出了"网络安全验证计划"（Cyber Verification Program），允许经过身份核实的安全研究人员申请获取模型的完整能力。这相当于给专业人士发了一把钥匙，能临时解除限制器。

这步棋下得很聪明。它同时做了三件事：

展示实力：告诉市场"我们有更强的"，压住竞争对手的心理预期
抢占道德高地：主动承认安全风险并限制发布，在监管层面加分
制造期待：Mythos 的公开发布就像一张未出的王牌，市场会持续关注

最强的模型不一定是最好的产品。最可控的模型才是。

该不该升级？一张决策清单

说了这么多分析，你可能最关心的是：我该不该换？

先说好消息：价格没变。输入 $5/百万 token，输出 $25/百万 token，跟 Opus 4.6 一模一样。性能涨了，价格不涨——这在 AI 行业里不常见。

就像你的车换了一台更强的发动机，但油价保持不变。你还犹豫什么？

但有几个坑你需要知道。

坑一：Tokenizer 变了

Opus 4.7 更新了分词器。同样的输入文本，新分词器可能会多用 1.0 到 1.35 倍的 token。这意味着虽然单价不变，但你实际的 API 费用可能会微涨。

尤其是中文文本，受影响可能更大——因为中文分词本身就比英文更"费 token"。如果你的应用对 token 用量敏感，升级前先拿生产数据跑个测试。

坑二：指令跟随能力变强了，可能需要调 Prompt

Anthropic 官方原话："users may need to retune prompts"。因为 Opus 4.7 对指令的理解更精确了，之前那些写得比较模糊、但 Opus 4.6 "能猜对"的 prompt，现在可能被 Opus 4.7 解读出不同的含义。

就像你之前跟一个"心领神会"的同事合作，换了一个"严格按字面意思执行"的同事——后者能力更强，但你得把需求写得更清楚。

坑三：新增了 xhigh 推理级别

Opus 4.7 在 high 和 max 之间新增了一个 xhigh（extra high）推理努力级别。Claude Code 已经默认使用 xhigh。这个级别会产生更多的推理 token，但能显著提高复杂任务的准确率。

如果你通过 API 调用，可以根据任务复杂度灵活选择推理级别：

# 简单任务用 high，节省 token
response = client.messages.create(
    model="claude-opus-4-7",
    thinking={"type": "enabled", "budget_tokens": 5000},  # high
    messages=[...]
)

# 复杂编程任务用 xhigh，追求准确率
response = client.messages.create(
    model="claude-opus-4-7",
    thinking={"type": "enabled", "budget_tokens": 16000},  # xhigh
    messages=[...]
)

关键在第二个 budget_tokens 参数——给更多的思考预算，模型就能"想得更深"。

对比一下

如果你的场景以编程和 Agent 工作流为主——升级，没有悬念。SWE-bench Pro 从 53% 到 64%，CursorBench 从 58% 到 70%，这个提升你每天都能感知到。

如果你的场景以网页搜索和信息抽取为主——谨慎评估。BrowseComp 的退步（83.7% → 79.3%）说明这个方向有取舍。

如果你的场景以纯推理为主——提升不大。GPQA Diamond 从 91.3% 到 94.2%，三家模型已经挤在了 94% 附近，差距在噪声范围内。

我的判断：三个预测

聊到这里，我们来做个复盘。

Claude Opus 4.7 不是一个"革命性"的版本。它没有引入全新的架构，没有突破性的新范式。但它是一个"打磨到位"的版本——在编程、视觉、Agent 工具调用这三个对开发者最重要的维度上，都做了扎实的提升。同时用安全约束的方式，给 Mythos 的公开发布铺了路。

基于这些观察，我做三个预测，给自己设个 deadline：

预测一：2026 年 Q3 之前，Claude Mythos 将正式面向公众发布。 Anthropic 已经通过 Opus 4.7 验证了"差异化安全削减"的技术路线，也通过 Cyber Verification Program 建立了分级访问机制。Mythos 的公开发布不是"要不要"的问题，而是"安全框架准备好了没有"的问题。我判断他们已经很接近了。

预测二：2026 年底之前，SWE-bench Verified 的头部模型分数将突破 95%。 Mythos Preview 已经到了 93.9%。当多家厂商都在拼命优化编程能力时，这个数字只会继续往上走。到那时候，"AI 能不能修 Bug"这个问题将彻底退出讨论——剩下的问题会变成"AI 修的 Bug 够不够安全"。

预测三：2026 年下半年，"安全能力分级发布"将成为行业标准做法。 Anthropic 这次的做法——发布一个"安全阉割版"，同时给专业人士提供完整能力——不会只是 Anthropic 一家的选择。当模型能力越来越接近"危险边界"，每家厂商都得回答同一个问题：你的模型能做什么，不该让谁用？

半年后回来看看，我说得对不对。

但有一件事，我现在就可以确定：

AI 模型之间的军备竞赛，正在从"谁更聪明"转向"谁更可控"。而这个转向，比任何一个基准测试的分数都重要。