Claude Code 升级到 Opus 4.6 后，到底强了多少？一张总表看懂（附 OCR 汉化 + System Card 解读）

先说结论

如果你主要用 Claude Code 做工程开发，Opus 4.6 的提升是明显的，但不是“全线碾压”。

一句话：4.6 的强项不只是“写代码”，而是把“写代码 + 查资料 + 调工具 + 产文档”这条链路拉长后，稳定性更高。

说明：OCR 原文会有少量错字（例如把 56.2% 识别成 96.2%），下表已用官方图和 System Card 校正。

维度（汉化）
原始评测
Opus 4.6
Opus 4.5
变化（4.6-4.5）

Agent 终端编码
Terminal-Bench 2.0
65.4%
59.8%
+5.6

Agent 代码修复
SWE-bench Verified
80.8%
80.9%
-0.1

Agent 电脑操作
OSWorld
72.7%
66.3%
+6.4

Agent 工具使用（零售）
τ2-bench Retail
91.9%
88.9%
+3.0

Agent 工具使用（电信）
τ2-bench Telecom
99.3%
98.2%
+1.1

规模化工具使用
MCP Atlas
59.5%
62.3%
-2.8

Agent 搜索
BrowseComp
84.0%
67.8%
+16.2

跨学科推理（无工具）
Humanity’s Last Exam
40.0%
30.8%
+9.2

跨学科推理（有工具）
Humanity’s Last Exam
53.1%
43.4%
+9.7

Agent 金融分析
Finance Agent
60.7%
55.9%
+4.8

办公任务
GDPval-AA Elo
1606
1416
+190

新问题求解
ARC AGI 2
68.8%
37.6%
+31.2

研究生级推理
GPQA Diamond
91.3%
87.0%
+4.3

视觉推理（无工具）
MMMU Pro
73.9%
70.6%
+3.3

视觉推理（有工具）
MMMU Pro
77.3%
73.9%
+3.4

多语言问答
MMMLU
91.1%
90.8%
+0.3

我把这次升级拆成四档：

如果你的工作负载是“接需求 -> 查资料 -> 改代码 -> 跑工具 -> 出结论”，这次升级体感会比只看 SWE-bench 更明显。

从官方总表看，Opus 4.6 在以下项领先明显：

也有落后项：

结论很直接：4.6 的优势更偏“Agent 工作流”和“知识工作整活能力”，不是每个单项都第一。

Anthropic 在 2026 年 2 月的系统卡里，给了两个重要信号：

他们同时说明：这次按 ASL-3 标准发布，且对高风险破坏行为的总体评估仍是低风险。

以上。