
先说结论
如果你主要用 Claude Code 做工程开发,Opus 4.6 的提升是明显的,但不是“全线碾压”。
- 终端型 Agent 编码(Terminal-Bench 2.0):
65.4%,比 Opus 4.5 提升+5.6个百分点。 - 传统代码修复(SWE-bench Verified):
80.8%,和 Opus 4.5 的80.9%基本持平。 - 工具调用、搜索、跨学科推理、办公任务这些“复合型工作流”提升更明显。
- 也有回落项:MCP Atlas(大规模工具使用)从
62.3%降到59.5%。
一句话:4.6 的强项不只是“写代码”,而是把“写代码 + 查资料 + 调工具 + 产文档”这条链路拉长后,稳定性更高。
图表 OCR 识别并汉化(已按官方数值校正)
说明:OCR 原文会有少量错字(例如把
56.2%识别成96.2%),下表已用官方图和 System Card 校正。
维度(汉化)
原始评测
Opus 4.6
Opus 4.5
变化(4.6-4.5)
Agent 终端编码
Terminal-Bench 2.0
65.4%
59.8%
+5.6
Agent 代码修复
SWE-bench Verified
80.8%
80.9%
-0.1
Agent 电脑操作
OSWorld
72.7%
66.3%
+6.4
Agent 工具使用(零售)
τ2-bench Retail
91.9%
88.9%
+3.0
Agent 工具使用(电信)
τ2-bench Telecom
99.3%
98.2%
+1.1
规模化工具使用
MCP Atlas
59.5%
62.3%
-2.8
Agent 搜索
BrowseComp
84.0%
67.8%
+16.2
跨学科推理(无工具)
Humanity’s Last Exam
40.0%
30.8%
+9.2
跨学科推理(有工具)
Humanity’s Last Exam
53.1%
43.4%
+9.7
Agent 金融分析
Finance Agent
60.7%
55.9%
+4.8
办公任务
GDPval-AA Elo
1606
1416
+190
新问题求解
ARC AGI 2
68.8%
37.6%
+31.2
研究生级推理
GPQA Diamond
91.3%
87.0%
+4.3
视觉推理(无工具)
MMMU Pro
73.9%
70.6%
+3.3
视觉推理(有工具)
MMMU Pro
77.3%
73.9%
+3.4
多语言问答
MMMLU
91.1%
90.8%
+0.3
“提升强度”怎么判断
我把这次升级拆成四档:
- 第一档(非常大):
ARC AGI 2 +31.2、GDPval-AA +190 Elo、BrowseComp +16.2 - 第二档(明显):
Humanity's Last Exam +9.x、OSWorld +6.4、Terminal-Bench +5.6 - 第三档(稳步):
Finance +4.8、GPQA +4.3、MMMU +3.x、τ2-bench +1~3 - 持平/回落:
SWE-bench -0.1(几乎持平)、MCP Atlas -2.8(回落)
如果你的工作负载是“接需求 -> 查资料 -> 改代码 -> 跑工具 -> 出结论”,这次升级体感会比只看 SWE-bench 更明显。
跟 GPT-5.2、Gemini 3 Pro 对比,怎么读更实用
从官方总表看,Opus 4.6 在以下项领先明显:
- BrowseComp:
84.0%(高于 GPT-5.2 Pro 的77.9%) - Humanity's Last Exam(with tools):
53.1%(高于 GPT-5.2 Pro 的50.0%) - GDPval-AA:
1606 Elo(高于 GPT-5.2 的1462)
也有落后项:
- GPQA Diamond:Opus 4.6
91.3%,GPT-5.2 Pro93.2% - MMMU Pro(with tools):Opus 4.6
77.3%,GPT-5.280.4%
结论很直接:4.6 的优势更偏“Agent 工作流”和“知识工作整活能力”,不是每个单项都第一。
PDF(System Card)里对这次升级的补充信息
Anthropic 在 2026 年 2 月的系统卡里,给了两个重要信号:
- 能力面:Opus 4.6 相比前代整体更强,多个能力达到行业 SOTA。
- 风险面:在 GUI computer-use 场景出现了更“主动”的行为(例如在少数测试中未经授权执行动作),因此部署时强调权限边界和监控。
他们同时说明:这次按 ASL-3 标准发布,且对高风险破坏行为的总体评估仍是低风险。

对 Claude Code 用户的实际建议
- 让它主导“长链路任务”,而不是只把它当补全工具。
- 在 GUI / 高权限环境里,必须加确认门(审批、只读、白名单工具)。
- 对关键操作保留可审计日志,避免“过度主动”变成线上事故。
- 对纯代码修复场景,不要只看模型版本,提示词和仓库上下文组织仍然是上限。
参考链接
以上。