2026-03-14 · 架构
32
架构 · 2026-03-14

1M Token 不是答案:真正决定可用性的,是你在长上下文里还能不能“找对”

最近一轮模型发布里,几乎所有主流实验室都把「1M token 上下文」写进了规格表。

看起来像是同一赛道,实际却不是同一能力。

如果把问题改成更工程化的一句:

在多长上下文下,模型还能以接近 90% 的准确率完成信息定位与诉求理解?

答案会非常现实:大约在 256K 这一档,只有少数模型还接近 90%;到 1M,差距会急剧拉开。


先说结论(给忙人)


为什么“1M token”常常让人误判

在产品宣传里,context window 是最容易比较的参数:
- 大小直观(128K、256K、1M)
- 看起来客观
- 容易做成一行对比表

但在工程里,这个参数只回答了一个问题:

“最多能塞多少”

而我们真正需要的是另一个问题:

“塞满以后,它还能不能稳定找到你要的那一条信息?”

两者差距很大。

一个模型可以“吃下”1M token,但如果在 1M 时只剩下 30% 左右的检索准确率,它在真实业务里就会变成高成本、低确定性的系统部件。


这组数据到底测了什么

这次讨论引用的是 MRCR v2(OpenAI 公布过的长上下文检索基准)。

它的思路并不复杂:
1. 在超长文本里埋入多个相似信息块(如 8 份近似线索)
2. 提一个有明确目标的检索问题
3. 看模型能否命中正确目标

它本质是压力测试:
- 不是“会不会写漂亮答案”
- 而是“在噪声和规模上来之后,还能不能定位对”

这类能力,和我们日常的 Agent、RAG、法律/财务文档问答、代码仓级 Copilot 直接相关。


回到核心问题:多少 token 才能接近 90%?

如果只看这组对外数据,可得出一个务实判断:

1) 256K 是当前“接近 90%”的关键分水位

在 256K 档位,Opus 4.6(91.9%)与 Sonnet 4.6(90.6%)都接近或达到 90%。
这说明:
- 当上下文规模在 256K 量级时,顶级模型仍可能维持接近生产可用的检索稳定性。

2) 1M 会放大差异,而不是抹平差异

同样宣称 1M,上 1M 后表现完全不是一回事:
- Opus 4.6 仍有 78.3%
- GPT-5.4 降到 36.6%
- Gemini 3.1 Pro 为 25.9%

也就是说,模型能力曲线不是线性衰减,而更像“谁先掉崖、谁更抗衰”。

3) 对 GPT-5.4,这组数据下看不到“90%区间”

文中给的是 GPT-5.4 在 128K~256K 区间的平均值 79.3%。
从这一个统计口径,不能证明其在 256K 接近 90%
如果要精确回答“GPT-5.4 在多少 token 达到 90%”,需要更细粒度分点(例如 32K/64K/128K)公开曲线。


“context rot” 对业务意味着什么

研究社区常把这种随长度增大而检索能力衰退的现象叫 context rot(上下文腐蚀)

这件事对业务的影响,不是“答错一次”那么简单,而是三层连锁:

  1. 准确率风险:关键引用、约束条件、边界条款被错取或漏取
  2. 流程风险:Agent 在多轮执行中基于错误事实继续推理,误差累积
  3. 成本风险:token 越长、调用越贵,结果反而越不稳定

当你把模型放进“长流程自动化”时,context rot 会直接吞掉系统可控性。


价格维度:更贵,不代表更稳

另一条容易被忽略的线是价格机制。

如果长上下文需要加价,而检索准确率又随长度显著下降,那么你得到的是:
- 更高单次成本
- 更低有效命中
- 更差的单位结果成本(cost per correct retrieval)

工程上真正该优化的指标,应该从“每百万 token 单价”转向:

每一次正确检索/正确决策的综合成本

这也是为什么“价格 × 长度衰减曲线”必须一起看。


给团队的落地建议(可直接执行)

如果你在做长对话 Agent、长文档分析、全仓代码助手,建议直接落这 5 条:

1) 把“检索保持率”设为准入门槛

2) 单次会话优先控制在“高可靠区间”

3) 关键任务引入“双通道校验”

4) 监控从 token 计费升级为“正确率计费”

5) 对 1M 场景做架构分流


一个更现实的判断框架

以后再看到“我们也支持 1M token”,建议直接追问三件事:

  1. 在 256K、512K、1M 的检索准确率分别是多少?
  2. 准确率曲线是缓降还是指数衰减?
  3. 长上下文加价后,单位正确结果成本是多少?

只要这三问答不清,1M 就更像营销参数,而不是生产能力。


结尾

回到最初的问题:

在多少 token 下,单次对话模型几乎可以做到 90% 的正确诉求分析?

基于当前这组公开数据,可落地的答案是:大约 256K 档位,且只在少数模型上成立。

到了 1M,真正决定胜负的不是“能装多少”,而是“还能不能找对”。

对于做 AI 系统的人,这可能比任何发布会上的参数都更重要。


:本文结论基于公开 benchmark 描述与对比数据解读,具体结果会受任务类型、提示策略、评测集构造与版本迭代影响。生产环境请务必做自有基准复测。

目录 最新
← 左侧翻上一屏 · 右侧翻下一屏 · 中间唤出菜单