引子:同一晚的两个信号
2026 年 2 月 5 日,Anthropic 和 OpenAI 同时发了新模型公告:Claude Opus 4.6 与 GPT‑5.3‑Codex。一个主打更长上下文、更稳的深度推理和更成熟的工作流入口,另一个把焦点锁在“可监督的 agentic coding”。两家都在说“能做更多”,但解决的不是同一个瓶颈。
我更愿意把这两条更新看成同一条产业曲线的两个切面:一条在把“聪明”变成“可持续的生产力”,一条在把“强能力”变成“可控的协作伙伴”。
术语拆解:两家到底在强调什么
1) Agentic coding
OpenAI 的 GPT‑5.3‑Codex 被定义为“最强的 agentic coding 模型”,并且强调它在 SWE‑Bench Pro、Terminal‑Bench 等评测上拉开差距,还能在 OSWorld、GDPval 等更偏真实任务的评测上保持强势(官方发布详见 这里)。它不是只写函数,而是能在更长链路里完成任务。更关键的是,Codex 允许你在它执行时持续插话、改方向、纠正路线。这一点把它从“提交完工单再等结果”的工具,变成“边做边协作的同事”。
2) Long context + compaction
Anthropic 的 Opus 4.6 把“长上下文”放在了核心位置:1M token 上下文(beta)和 128k 输出,再加上 context compaction,把长会话里的早期内容压缩成可用摘要,让任务可以拉得更长(官方发布详见 这里)。它想解决的不是“能不能做”,而是“做得久不久,跑到后面会不会崩”。
3) Effort / adaptive thinking
Opus 4.6 的 API 加了 adaptive thinking 和 effort 等级,等于把“模型多想一点”变成了可调旋钮(官方发布详见 这里)。它明确承认深度推理会带来成本和延迟,并把控制权交给开发者。你能按任务决定是跑得快,还是想得深。
4) 安全能力的“硬指标化”
两家都在把安全问题放进模型叙事里。Anthropic 强调 Opus 4.6 在系统卡里的安全评估表现与前代一样好甚至更好,误拒率更低(见 官方发布)。OpenAI 则把 GPT‑5.3‑Codex 定义为首个达到“高能力”网络安全等级的模型,并强调它被直接训练来识别软件漏洞,同时部署更完整的安全栈(见 官方发布)。

现象分析:为什么这两条路线会在同一晚出现
一个事实很清楚:模型能力已经超过了“写代码”这个单一场景。人们开始更关心“在更长的任务里不掉线”,以及“在更复杂的协作里可监督”。
OpenAI 把交互性放在 Codex 的中心,是因为 agentic 任务的失败往往不是能力不足,而是执行中偏航。让人“边看边改”能显著降低失败成本。Anthropic 则把长上下文和 compaction 做成底座,是因为长任务里最常见的问题不是答案不对,而是遗忘和漂移。
这两条路线也对应了用户结构的差异。Codex 更像面向开发与工程流程的“能跑起来的 teammate”,而 Opus 4.6 更像面向多工具、多文档、多角色的“能扛住流程的主力模型”。
第三方评测与社区观点:早期的“外部视角”
第三方媒体目前更多聚焦在产品定位和落地场景,而不是系统性复测。The Verge 的报道指出,Opus 4.6 想把 Claude 推向更广的知识工作场景,强调文档、表格、演示等任务的稳定性,并把 1M context 和 agent teams 当作关键支撑(见 The Verge)。Axios 则聚焦安全与漏洞发现能力,报道 Anthropic 团队声称 Opus 4.6 发现了 500+ 高危漏洞,并把它视为防守端能力跃迁的信号(见 Axios)。
社区层面,目前更像“首日实测与转发”。在 Reddit 的 r/codex 与 r/aicuriosity 里,大家大量转发官方信息,也有人开始讨论速度、评测、以及交互式协作的体验感,但真正系统的对比评测还不多(见 r/codex 讨论、r/aicuriosity 讨论)。短期内更适合把这些反馈当成“风向”,而不是“结论”。

深度批判:可控性、成本与真实生产力
1) 可控性的代价不是交互,而是认知负担
把模型变成“可被插话的同事”很有吸引力,但这也要求人能够持续监控、持续反馈。对于高频任务,这种参与度可能会变成新瓶颈。你得问一句:团队是否有能力一直盯着它跑?如果做不到,交互性未必能带来真正收益。
2) 长上下文不是万能,管理才是关键
1M token 是能力边界的突破,但真正考验在于“把什么留在上下文里”。compaction 本质是压缩策略的工程化,它需要足够好的“摘要与保真”机制,否则就会把关键细节抹掉。长上下文本身不是生产力,能否稳定地管理上下文才是。
3) 评测领先不等于真实效率
SWE‑Bench Pro、Terminal‑Bench 这类评测很重要,但企业级工作流里最耗时的并不是通过测试,而是理解需求、处理异常、和已有系统融合。OpenAI 与 Anthropic 都在强调“能做长任务”,但你还是需要在自己的工程环境里做端到端验证。
安全与未来:两家都把网络安全当成分水岭
Anthropic 强调更完整的安全评估与更低的误拒率,同时在系统卡里披露更严密的测试方式。OpenAI 则直接把 GPT‑5.3‑Codex 归为高能力网络安全模型,并承认它在漏洞识别上的显著提升。网络安全正在变成“模型发布门槛”的核心指标,而且这条线会越来越紧。
未来 6 到 18 个月,你会看到三个趋势:
- 更细颗粒度的推理/成本控制(类似 effort、adaptive thinking 这样的控制层会成为默认配置)。
- 更可监督的 agent 运行方式(边跑边协作会成为默认交互模式)。
- 更明确的安全等级与部署门槛,尤其在网络安全与工具调用场景。
我会怎么选
如果你做的是长链路、多文档、多工具协作任务,优先看 Opus 4.6 的长上下文、compaction、以及 effort 控制能否在你的任务里稳定生效。如果你更在意工程任务的可监督性、想把模型当成“会跟你互动的执行者”,那 GPT‑5.3‑Codex 的交互式协作和 agentic coding 更贴合。
我建议你做两件事:
- 把同一条真实任务拆成“短链路”和“长链路”两种版本,分别跑一轮。
- 记录模型在 30 分钟以后出现的问题类型,而不是只看第一次产出。
就这些。