2026-02-05 · AI
32
AI · 2026-02-05

Claude Code 升级到 Opus 4.6 后,到底强了多少?一张总表看懂(附 OCR 汉化 + System Card 解读)

先说结论

如果你主要用 Claude Code 做工程开发,Opus 4.6 的提升是明显的,但不是“全线碾压”。

一句话:4.6 的强项不只是“写代码”,而是把“写代码 + 查资料 + 调工具 + 产文档”这条链路拉长后,稳定性更高。

图表 OCR 识别并汉化(已按官方数值校正)

说明:OCR 原文会有少量错字(例如把 56.2% 识别成 96.2%),下表已用官方图和 System Card 校正。

维度(汉化)
原始评测
Opus 4.6
Opus 4.5
变化(4.6-4.5)

Agent 终端编码
Terminal-Bench 2.0
65.4%
59.8%
+5.6

Agent 代码修复
SWE-bench Verified
80.8%
80.9%
-0.1

Agent 电脑操作
OSWorld
72.7%
66.3%
+6.4

Agent 工具使用(零售)
τ2-bench Retail
91.9%
88.9%
+3.0

Agent 工具使用(电信)
τ2-bench Telecom
99.3%
98.2%
+1.1

规模化工具使用
MCP Atlas
59.5%
62.3%
-2.8

Agent 搜索
BrowseComp
84.0%
67.8%
+16.2

跨学科推理(无工具)
Humanity’s Last Exam
40.0%
30.8%
+9.2

跨学科推理(有工具)
Humanity’s Last Exam
53.1%
43.4%
+9.7

Agent 金融分析
Finance Agent
60.7%
55.9%
+4.8

办公任务
GDPval-AA Elo
1606
1416
+190

新问题求解
ARC AGI 2
68.8%
37.6%
+31.2

研究生级推理
GPQA Diamond
91.3%
87.0%
+4.3

视觉推理(无工具)
MMMU Pro
73.9%
70.6%
+3.3

视觉推理(有工具)
MMMU Pro
77.3%
73.9%
+3.4

多语言问答
MMMLU
91.1%
90.8%
+0.3

“提升强度”怎么判断

我把这次升级拆成四档:

如果你的工作负载是“接需求 -> 查资料 -> 改代码 -> 跑工具 -> 出结论”,这次升级体感会比只看 SWE-bench 更明显。

跟 GPT-5.2、Gemini 3 Pro 对比,怎么读更实用

从官方总表看,Opus 4.6 在以下项领先明显:

也有落后项:

结论很直接:4.6 的优势更偏“Agent 工作流”和“知识工作整活能力”,不是每个单项都第一。

PDF(System Card)里对这次升级的补充信息

Anthropic 在 2026 年 2 月的系统卡里,给了两个重要信号:

他们同时说明:这次按 ASL-3 标准发布,且对高风险破坏行为的总体评估仍是低风险。

对 Claude Code 用户的实际建议

参考链接

以上。

目录 最新
← 左侧翻上一屏 · 右侧翻下一屏 · 中间唤出菜单