2026-02-05 · AI
32
AI · 2026-02-05

Opus 4.6 vs GPT-5.3-Codex:同一晚的两条路线

引子:同一晚的两个信号

2026 年 2 月 5 日,Anthropic 和 OpenAI 同时发了新模型公告:Claude Opus 4.6GPT‑5.3‑Codex。一个主打更长上下文、更稳的深度推理和更成熟的工作流入口,另一个把焦点锁在“可监督的 agentic coding”。两家都在说“能做更多”,但解决的不是同一个瓶颈。

我更愿意把这两条更新看成同一条产业曲线的两个切面:一条在把“聪明”变成“可持续的生产力”,一条在把“强能力”变成“可控的协作伙伴”。

术语拆解:两家到底在强调什么

1) Agentic coding

OpenAI 的 GPT‑5.3‑Codex 被定义为“最强的 agentic coding 模型”,并且强调它在 SWE‑Bench Pro、Terminal‑Bench 等评测上拉开差距,还能在 OSWorld、GDPval 等更偏真实任务的评测上保持强势(官方发布详见 这里)。它不是只写函数,而是能在更长链路里完成任务。更关键的是,Codex 允许你在它执行时持续插话、改方向、纠正路线。这一点把它从“提交完工单再等结果”的工具,变成“边做边协作的同事”。

2) Long context + compaction

Anthropic 的 Opus 4.6 把“长上下文”放在了核心位置:1M token 上下文(beta)和 128k 输出,再加上 context compaction,把长会话里的早期内容压缩成可用摘要,让任务可以拉得更长(官方发布详见 这里)。它想解决的不是“能不能做”,而是“做得久不久,跑到后面会不会崩”。

3) Effort / adaptive thinking

Opus 4.6 的 API 加了 adaptive thinking 和 effort 等级,等于把“模型多想一点”变成了可调旋钮(官方发布详见 这里)。它明确承认深度推理会带来成本和延迟,并把控制权交给开发者。你能按任务决定是跑得快,还是想得深。

4) 安全能力的“硬指标化”

两家都在把安全问题放进模型叙事里。Anthropic 强调 Opus 4.6 在系统卡里的安全评估表现与前代一样好甚至更好,误拒率更低(见 官方发布)。OpenAI 则把 GPT‑5.3‑Codex 定义为首个达到“高能力”网络安全等级的模型,并强调它被直接训练来识别软件漏洞,同时部署更完整的安全栈(见 官方发布)。

现象分析:为什么这两条路线会在同一晚出现

一个事实很清楚:模型能力已经超过了“写代码”这个单一场景。人们开始更关心“在更长的任务里不掉线”,以及“在更复杂的协作里可监督”。

OpenAI 把交互性放在 Codex 的中心,是因为 agentic 任务的失败往往不是能力不足,而是执行中偏航。让人“边看边改”能显著降低失败成本。Anthropic 则把长上下文和 compaction 做成底座,是因为长任务里最常见的问题不是答案不对,而是遗忘和漂移。

这两条路线也对应了用户结构的差异。Codex 更像面向开发与工程流程的“能跑起来的 teammate”,而 Opus 4.6 更像面向多工具、多文档、多角色的“能扛住流程的主力模型”。

第三方评测与社区观点:早期的“外部视角”

第三方媒体目前更多聚焦在产品定位和落地场景,而不是系统性复测。The Verge 的报道指出,Opus 4.6 想把 Claude 推向更广的知识工作场景,强调文档、表格、演示等任务的稳定性,并把 1M context 和 agent teams 当作关键支撑(见 The Verge)。Axios 则聚焦安全与漏洞发现能力,报道 Anthropic 团队声称 Opus 4.6 发现了 500+ 高危漏洞,并把它视为防守端能力跃迁的信号(见 Axios)。

社区层面,目前更像“首日实测与转发”。在 Reddit 的 r/codex 与 r/aicuriosity 里,大家大量转发官方信息,也有人开始讨论速度、评测、以及交互式协作的体验感,但真正系统的对比评测还不多(见 r/codex 讨论r/aicuriosity 讨论)。短期内更适合把这些反馈当成“风向”,而不是“结论”。

深度批判:可控性、成本与真实生产力

1) 可控性的代价不是交互,而是认知负担

把模型变成“可被插话的同事”很有吸引力,但这也要求人能够持续监控、持续反馈。对于高频任务,这种参与度可能会变成新瓶颈。你得问一句:团队是否有能力一直盯着它跑?如果做不到,交互性未必能带来真正收益。

2) 长上下文不是万能,管理才是关键

1M token 是能力边界的突破,但真正考验在于“把什么留在上下文里”。compaction 本质是压缩策略的工程化,它需要足够好的“摘要与保真”机制,否则就会把关键细节抹掉。长上下文本身不是生产力,能否稳定地管理上下文才是。

3) 评测领先不等于真实效率

SWE‑Bench Pro、Terminal‑Bench 这类评测很重要,但企业级工作流里最耗时的并不是通过测试,而是理解需求、处理异常、和已有系统融合。OpenAI 与 Anthropic 都在强调“能做长任务”,但你还是需要在自己的工程环境里做端到端验证。

安全与未来:两家都把网络安全当成分水岭

Anthropic 强调更完整的安全评估与更低的误拒率,同时在系统卡里披露更严密的测试方式。OpenAI 则直接把 GPT‑5.3‑Codex 归为高能力网络安全模型,并承认它在漏洞识别上的显著提升。网络安全正在变成“模型发布门槛”的核心指标,而且这条线会越来越紧。

未来 6 到 18 个月,你会看到三个趋势:

我会怎么选

如果你做的是长链路、多文档、多工具协作任务,优先看 Opus 4.6 的长上下文、compaction、以及 effort 控制能否在你的任务里稳定生效。如果你更在意工程任务的可监督性、想把模型当成“会跟你互动的执行者”,那 GPT‑5.3‑Codex 的交互式协作和 agentic coding 更贴合。

我建议你做两件事:

就这些。

目录 最新
← 左侧翻上一屏 · 右侧翻下一屏 · 中间唤出菜单