TECH ARTICLES
LLM Claude AI Coding

Claude Opus 4.7:编程基准暴涨 7 分,Anthropic 却说"这还不是我们最强的"

Jackie Zhan 2026-04-17
目录
编程能力到底强在哪? 眼睛升级了,意味着什么? Agent 工具调用,谁是真正的王者? 为什么 Anthropic 说"这不是我们最强的"? 该不该升级?一张决策清单

87.6%。

这是 Claude Opus 4.7 在 SWE-bench Verified 上的得分。一个月前,Opus 4.6 的成绩是 80.8%。

你可能觉得,不就涨了 7 分吗?

但如果你了解 SWE-bench 这个基准测试——它要求模型独立修复 GitHub 上真实的开源项目 Bug,不是写 Hello World,不是补全一行代码,而是读懂几千行代码的上下文,定位问题,写出能通过测试的补丁——你就知道,80 分到 88 分之间的距离,不亚于高考数学从 130 分冲到 145 分。

更耐人寻味的是,Anthropic 在发布博客里轻描淡写地加了一句:Opus 4.7 "less broadly capable" than Claude Mythos Preview。

翻译成大白话就是:这已经是我们公开发售的最强模型了,但我们手里还有一张没打出来的牌。

昨天(4 月 16 日),Anthropic 正式发布了 Claude Opus 4.7。今天我们来拆解一下:这个模型到底强在哪?弱在哪?以及 Anthropic 这步棋,到底在下什么?


编程能力到底强在哪?

先上硬数据。

SWE-bench 有两个版本:Verified(经过人工筛选的题集)和 Pro(更难的子集)。Opus 4.7 在这两个版本上的表现,都是目前公开可用模型里最好的。

基准测试Opus 4.7Opus 4.6GPT-5.4Gemini 3.1 Pro
SWE-bench Verified87.6%80.8%80.6%
SWE-bench Pro64.3%53.4%57.7%54.2%
CursorBench70%58%
Terminal-Bench 2.069.4%65.4%75.1%68.5%

看到没有?SWE-bench Pro 从 53.4% 跳到 64.3%,接近 11 个百分点。这意味着什么?

打个比方。SWE-bench Verified 像期中考试,考的是"你能不能修好一个标准的 Bug"。而 SWE-bench Pro 像期末考试的附加题——那种需要你理解项目架构、跨文件追踪依赖、还得考虑边界情况的硬茬。

Opus 4.6 在这类硬茬上,答对率刚过一半。Opus 4.7 直接拉到了近三分之二。

更有说服力的是 CursorBench。这不是学术基准,而是在 Cursor 编辑器里的真实编程任务——你在日常工作中让 AI 帮你写代码,能搞定多少。从 58% 到 70%,这 12 个百分点的提升,你每天都能感受到。

数据说话
Anthropic 还提到了一个有趣的内部测试:一个 93 个真实编程任务的测试集上,Opus 4.7 比 Opus 4.6 提升了 13%。其中有 4 个任务,Opus 4.6 和 Sonnet 4.6 都做不出来,但 Opus 4.7 做出来了。这不是"做得更快",而是"以前做不到,现在能做到"。

不过有一个数据值得注意:Terminal-Bench 2.0 上,GPT-5.4 以 75.1% 领先 Opus 4.7 的 69.4%。这个测试侧重终端环境下的交互式编程,说明在某些特定场景下,OpenAI 仍然有优势。

但整体来看,趋势是清晰的:Opus 4.7 在编程基准上全面领跑。

编程基准的每一分,背后都是工程师省下的一小时。


眼睛升级了,意味着什么?

Opus 4.7 还悄悄做了一件大事:图像分辨率从 1,568 像素(长边)跳到了 2,576 像素,大约 3.75 兆像素。提升了 3 倍多。

这是什么概念?

之前的 Claude 看图,就像你不戴眼镜看路牌——大字能认出来,小字糊成一团。现在的 Claude 看图,相当于戴上了高清眼镜,不光能看路牌,还能看清地图上的等高线。

这个提升直接体现在了 CharXiv 基准测试上。CharXiv 是一个专门测试模型理解图表能力的测试集——给你一张科研论文里的图表,问你"这张图说明了什么?"

Opus 4.7 在 CharXiv Reasoning(不使用工具)上得了 82.1%,而 Opus 4.6 只有 69.1%。

13 分的飞跃。这是所有基准测试里单项提升最大的。

实战案例
想象一下你是一名数据分析师。你把一张密密麻麻的 Excel 截图丢给 Claude,让它帮你分析趋势。之前它可能把"1,234"看成"1,284"。现在,它能看清每一个像素里的数字。对于企业里大量依赖文档截图、报表图片、UI 原型图工作的场景,这个提升是实打实的。

不过话说回来,视觉能力这个赛道,Google Gemini 3.1 Pro 仍然是标杆。在多模态综合评测(Video-MME)上,Gemini 以 78.2% 遥遥领先,Opus 4.7 还没公布同类数据。

换句话说,Opus 4.7 的"眼睛"升级了,但主要升级的是"看静态图"的能力。视频理解、多模态交互这些领域,Google 还是那个老大哥。

看得更清楚不是目的,看懂才是。而 Opus 4.7 证明了:分辨率 × 理解力,才是视觉 AI 的真正公式。


Agent 工具调用,谁是真正的王者?

2026 年,AI 模型之间的竞争已经不仅仅是"谁更聪明"了。更关键的问题是:谁能更好地"干活"?

所谓"干活",就是 Agent 能力——模型能不能自主调用工具、串联多个步骤、完成一个完整的任务。

Opus 4.7 在这个维度上,交出了一份相当亮眼的成绩单。

Agent 能力基准测试对比 MCP-Atlas(工具调用) Opus 4.7: 77.3% Opus 4.6: 75.8% Finance Agent v1.1 Opus 4.7: 64.4% Opus 4.6: 60.1% OSWorld(Computer Use) Opus 4.7: 78.0% GPT-5.4: 75.0% 综合 Agent 能力提升 多步工作流 +14%,工具错误 -66%
Claude Opus 4.7 Agent 能力关键指标

MCP-Atlas 是一个专门测试模型工具调用能力的基准——给模型一堆 MCP 工具,看它能不能正确地选择、组合、调用这些工具来完成任务。Opus 4.7 以 77.3% 领跑所有公开可用模型,GPT-5.4 只有 68.1%。差距接近 10 个百分点。

但更让我印象深刻的不是分数本身,而是 Anthropic 提到的一个细节:

Opus 4.7 在复杂多步工作流上比 Opus 4.6 提升了 14%,同时使用了更少的 token,工具调用错误减少到了之前的三分之一。
—— Anthropic 官方博客

你品品这句话。不是"做得更多",而是"做得更准,还更省"。

这就像一个实习生和一个高级工程师的区别。实习生也能用工具,但经常调错 API、传错参数、搞出一堆重试。高级工程师不光工具用得对,还知道什么时候该用哪个工具,什么时候不该用。

Opus 4.7 还引入了一个新能力叫"隐式需求推断"(Implicit-need test)——模型能推断出你没有明确要求、但完成任务必须用到的工具。你说"帮我分析这个数据集",它自己知道要先调文件读取,再调统计工具,最后调图表生成。你不用一步步教它。

常见误解
很多人以为 Agent 能力 = 能调用的工具数量。错了。真正的 Agent 能力是"调对率"和"编排能力"。一个能调 100 个工具但每 3 次就调错一次的 Agent,还不如一个只会 20 个工具但从不出错的 Agent。Opus 4.7 的进步方向,恰恰是后者。

但有一个地方 Opus 4.7 退步了:BrowseComp(网页搜索质量测试)。Opus 4.6 得了 83.7%,Opus 4.7 反而掉到了 79.3%。这可能是训练过程中对编程和工具调用能力的侧重,导致网页搜索这个子能力被"挤掉"了一些。

衡量 Agent 能力的标准,不是它能调用多少工具,而是它调错多少次。


为什么 Anthropic 说"这不是我们最强的"?

这是整个发布里最耐人寻味的部分。

Anthropic 在博客里大大方方地承认:Claude Opus 4.7 不如 Claude Mythos Preview。不是含蓄暗示,而是白纸黑字写出来,还附了对比数据。

Mythos Preview 在 SWE-bench Verified 上得了 93.9%——比 Opus 4.7 的 87.6% 高出 6 个多百分点。在 Terminal-Bench 2.0 上,Mythos 得了 82.0%,而 Opus 4.7 只有 69.4%。在 GPQA Diamond(研究生级推理)上,Mythos 得了 94.6%,也略高于 Opus 4.7 的 94.2%。

那为什么不直接发布 Mythos?

答案藏在两个字里:安全

这里有个背景故事。2025 年底,AI 安全领域发生了一件大事——多个安全研究团队发现,当模型的通用能力达到某个临界点后,它的网络安全攻击能力会出现"涌现式"的跳跃。不是线性增长,而是突然"开窍"。

Anthropic 的 Mythos 就踩在了这条线上。

根据 Anthropic 红队测试平台的公开信息,Mythos 在网络安全相关任务上展现出了远超前代模型的能力——不仅能理解漏洞,还能设计攻击路径。这让 Anthropic 做出了一个罕见的决定:暂缓公开发布。

而 Opus 4.7 的发布,实际上是 Anthropic 在安全和能力之间找到的一个"折中点"。

insider 视角
Anthropic 在 Opus 4.7 的训练过程中,有意"差异化削减"(differentially reduce)了模型的网络安全能力。这意味着它不是简单地"阉割版 Mythos",而是在训练阶段就刻意降低了模型在安全攻击方向上的表现,同时保留甚至增强了编程和推理能力。这是一种全新的安全工程手段。

打个比方:如果 Mythos 是一把能切一切的激光刀,那 Opus 4.7 就是同一把刀,但加了一个物理限制器——切菜、切肉、切木头都没问题,但切不了保险柜的锁。

Anthropic 还同步推出了"网络安全验证计划"(Cyber Verification Program),允许经过身份核实的安全研究人员申请获取模型的完整能力。这相当于给专业人士发了一把钥匙,能临时解除限制器。

这步棋下得很聪明。它同时做了三件事:

  1. 展示实力:告诉市场"我们有更强的",压住竞争对手的心理预期
  2. 抢占道德高地:主动承认安全风险并限制发布,在监管层面加分
  3. 制造期待:Mythos 的公开发布就像一张未出的王牌,市场会持续关注

最强的模型不一定是最好的产品。最可控的模型才是。


该不该升级?一张决策清单

说了这么多分析,你可能最关心的是:我该不该换?

先说好消息:价格没变。输入 $5/百万 token,输出 $25/百万 token,跟 Opus 4.6 一模一样。性能涨了,价格不涨——这在 AI 行业里不常见。

就像你的车换了一台更强的发动机,但油价保持不变。你还犹豫什么?

但有几个坑你需要知道。

坑一:Tokenizer 变了

Opus 4.7 更新了分词器。同样的输入文本,新分词器可能会多用 1.0 到 1.35 倍的 token。这意味着虽然单价不变,但你实际的 API 费用可能会微涨。

尤其是中文文本,受影响可能更大——因为中文分词本身就比英文更"费 token"。如果你的应用对 token 用量敏感,升级前先拿生产数据跑个测试。

坑二:指令跟随能力变强了,可能需要调 Prompt

Anthropic 官方原话:"users may need to retune prompts"。因为 Opus 4.7 对指令的理解更精确了,之前那些写得比较模糊、但 Opus 4.6 "能猜对"的 prompt,现在可能被 Opus 4.7 解读出不同的含义。

就像你之前跟一个"心领神会"的同事合作,换了一个"严格按字面意思执行"的同事——后者能力更强,但你得把需求写得更清楚。

坑三:新增了 xhigh 推理级别

Opus 4.7 在 high 和 max 之间新增了一个 xhigh(extra high)推理努力级别。Claude Code 已经默认使用 xhigh。这个级别会产生更多的推理 token,但能显著提高复杂任务的准确率。

如果你通过 API 调用,可以根据任务复杂度灵活选择推理级别:

# 简单任务用 high,节省 token
response = client.messages.create(
    model="claude-opus-4-7",
    thinking={"type": "enabled", "budget_tokens": 5000},  # high
    messages=[...]
)

# 复杂编程任务用 xhigh,追求准确率
response = client.messages.create(
    model="claude-opus-4-7",
    thinking={"type": "enabled", "budget_tokens": 16000},  # xhigh
    messages=[...]
)

关键在第二个 budget_tokens 参数——给更多的思考预算,模型就能"想得更深"。

对比一下
如果你的场景以编程和 Agent 工作流为主——升级,没有悬念。SWE-bench Pro 从 53% 到 64%,CursorBench 从 58% 到 70%,这个提升你每天都能感知到。

如果你的场景以网页搜索和信息抽取为主——谨慎评估。BrowseComp 的退步(83.7% → 79.3%)说明这个方向有取舍。

如果你的场景以纯推理为主——提升不大。GPQA Diamond 从 91.3% 到 94.2%,三家模型已经挤在了 94% 附近,差距在噪声范围内。

我的判断:三个预测

聊到这里,我们来做个复盘。

Claude Opus 4.7 不是一个"革命性"的版本。它没有引入全新的架构,没有突破性的新范式。但它是一个"打磨到位"的版本——在编程、视觉、Agent 工具调用这三个对开发者最重要的维度上,都做了扎实的提升。同时用安全约束的方式,给 Mythos 的公开发布铺了路。

基于这些观察,我做三个预测,给自己设个 deadline:

预测一:2026 年 Q3 之前,Claude Mythos 将正式面向公众发布。 Anthropic 已经通过 Opus 4.7 验证了"差异化安全削减"的技术路线,也通过 Cyber Verification Program 建立了分级访问机制。Mythos 的公开发布不是"要不要"的问题,而是"安全框架准备好了没有"的问题。我判断他们已经很接近了。

预测二:2026 年底之前,SWE-bench Verified 的头部模型分数将突破 95%。 Mythos Preview 已经到了 93.9%。当多家厂商都在拼命优化编程能力时,这个数字只会继续往上走。到那时候,"AI 能不能修 Bug"这个问题将彻底退出讨论——剩下的问题会变成"AI 修的 Bug 够不够安全"。

预测三:2026 年下半年,"安全能力分级发布"将成为行业标准做法。 Anthropic 这次的做法——发布一个"安全阉割版",同时给专业人士提供完整能力——不会只是 Anthropic 一家的选择。当模型能力越来越接近"危险边界",每家厂商都得回答同一个问题:你的模型能做什么,不该让谁用?

半年后回来看看,我说得对不对。

但有一件事,我现在就可以确定:

AI 模型之间的军备竞赛,正在从"谁更聪明"转向"谁更可控"。而这个转向,比任何一个基准测试的分数都重要。