Opus 4.6 vs GPT-5.3-Codex：同一晚的两条路线

引子：同一晚的两个信号

2026 年 2 月 5 日，Anthropic 和 OpenAI 同时发了新模型公告：Claude Opus 4.6 与 GPT‑5.3‑Codex。一个主打更长上下文、更稳的深度推理和更成熟的工作流入口，另一个把焦点锁在“可监督的 agentic coding”。两家都在说“能做更多”，但解决的不是同一个瓶颈。

我更愿意把这两条更新看成同一条产业曲线的两个切面：一条在把“聪明”变成“可持续的生产力”，一条在把“强能力”变成“可控的协作伙伴”。

术语拆解：两家到底在强调什么

1) Agentic coding

OpenAI 的 GPT‑5.3‑Codex 被定义为“最强的 agentic coding 模型”，并且强调它在 SWE‑Bench Pro、Terminal‑Bench 等评测上拉开差距，还能在 OSWorld、GDPval 等更偏真实任务的评测上保持强势（官方发布详见这里）。它不是只写函数，而是能在更长链路里完成任务。更关键的是，Codex 允许你在它执行时持续插话、改方向、纠正路线。这一点把它从“提交完工单再等结果”的工具，变成“边做边协作的同事”。

2) Long context + compaction

Anthropic 的 Opus 4.6 把“长上下文”放在了核心位置：1M token 上下文（beta）和 128k 输出，再加上 context compaction，把长会话里的早期内容压缩成可用摘要，让任务可以拉得更长（官方发布详见这里）。它想解决的不是“能不能做”，而是“做得久不久，跑到后面会不会崩”。

3) Effort / adaptive thinking

Opus 4.6 的 API 加了 adaptive thinking 和 effort 等级，等于把“模型多想一点”变成了可调旋钮（官方发布详见这里）。它明确承认深度推理会带来成本和延迟，并把控制权交给开发者。你能按任务决定是跑得快，还是想得深。

4) 安全能力的“硬指标化”

两家都在把安全问题放进模型叙事里。Anthropic 强调 Opus 4.6 在系统卡里的安全评估表现与前代一样好甚至更好，误拒率更低（见官方发布）。OpenAI 则把 GPT‑5.3‑Codex 定义为首个达到“高能力”网络安全等级的模型，并强调它被直接训练来识别软件漏洞，同时部署更完整的安全栈（见官方发布）。

现象分析：为什么这两条路线会在同一晚出现

一个事实很清楚：模型能力已经超过了“写代码”这个单一场景。人们开始更关心“在更长的任务里不掉线”，以及“在更复杂的协作里可监督”。

OpenAI 把交互性放在 Codex 的中心，是因为 agentic 任务的失败往往不是能力不足，而是执行中偏航。让人“边看边改”能显著降低失败成本。Anthropic 则把长上下文和 compaction 做成底座，是因为长任务里最常见的问题不是答案不对，而是遗忘和漂移。

这两条路线也对应了用户结构的差异。Codex 更像面向开发与工程流程的“能跑起来的 teammate”，而 Opus 4.6 更像面向多工具、多文档、多角色的“能扛住流程的主力模型”。

第三方评测与社区观点：早期的“外部视角”

第三方媒体目前更多聚焦在产品定位和落地场景，而不是系统性复测。The Verge 的报道指出，Opus 4.6 想把 Claude 推向更广的知识工作场景，强调文档、表格、演示等任务的稳定性，并把 1M context 和 agent teams 当作关键支撑（见 The Verge）。Axios 则聚焦安全与漏洞发现能力，报道 Anthropic 团队声称 Opus 4.6 发现了 500+ 高危漏洞，并把它视为防守端能力跃迁的信号（见 Axios）。

社区层面，目前更像“首日实测与转发”。在 Reddit 的 r/codex 与 r/aicuriosity 里，大家大量转发官方信息，也有人开始讨论速度、评测、以及交互式协作的体验感，但真正系统的对比评测还不多（见 r/codex 讨论、r/aicuriosity 讨论）。短期内更适合把这些反馈当成“风向”，而不是“结论”。

深度批判：可控性、成本与真实生产力

1) 可控性的代价不是交互，而是认知负担

把模型变成“可被插话的同事”很有吸引力，但这也要求人能够持续监控、持续反馈。对于高频任务，这种参与度可能会变成新瓶颈。你得问一句：团队是否有能力一直盯着它跑？如果做不到，交互性未必能带来真正收益。

2) 长上下文不是万能，管理才是关键

1M token 是能力边界的突破，但真正考验在于“把什么留在上下文里”。compaction 本质是压缩策略的工程化，它需要足够好的“摘要与保真”机制，否则就会把关键细节抹掉。长上下文本身不是生产力，能否稳定地管理上下文才是。

3) 评测领先不等于真实效率

SWE‑Bench Pro、Terminal‑Bench 这类评测很重要，但企业级工作流里最耗时的并不是通过测试，而是理解需求、处理异常、和已有系统融合。OpenAI 与 Anthropic 都在强调“能做长任务”，但你还是需要在自己的工程环境里做端到端验证。

安全与未来：两家都把网络安全当成分水岭

Anthropic 强调更完整的安全评估与更低的误拒率，同时在系统卡里披露更严密的测试方式。OpenAI 则直接把 GPT‑5.3‑Codex 归为高能力网络安全模型，并承认它在漏洞识别上的显著提升。网络安全正在变成“模型发布门槛”的核心指标，而且这条线会越来越紧。

未来 6 到 18 个月，你会看到三个趋势：

更细颗粒度的推理/成本控制（类似 effort、adaptive thinking 这样的控制层会成为默认配置）。
更可监督的 agent 运行方式（边跑边协作会成为默认交互模式）。
更明确的安全等级与部署门槛，尤其在网络安全与工具调用场景。

我会怎么选

如果你做的是长链路、多文档、多工具协作任务，优先看 Opus 4.6 的长上下文、compaction、以及 effort 控制能否在你的任务里稳定生效。如果你更在意工程任务的可监督性、想把模型当成“会跟你互动的执行者”，那 GPT‑5.3‑Codex 的交互式协作和 agentic coding 更贴合。

我建议你做两件事：

把同一条真实任务拆成“短链路”和“长链路”两种版本，分别跑一轮。
记录模型在 30 分钟以后出现的问题类型，而不是只看第一次产出。

就这些。