1M Token 不是答案：真正决定可用性的，是你在长上下文里还能不能“找对”

最近一轮模型发布里，几乎所有主流实验室都把「1M token 上下文」写进了规格表。

看起来像是同一赛道，实际却不是同一能力。

如果把问题改成更工程化的一句：

在多长上下文下，模型还能以接近 90% 的准确率完成信息定位与诉求理解？

答案会非常现实：大约在 256K 这一档，只有少数模型还接近 90%；到 1M，差距会急剧拉开。

先说结论（给忙人）

“接近 90% 正确率”的有效区间，当前大致在 256K（而不是 1M）。
在 MRCR v2 这类“长上下文检索”测试里：
Opus 4.6：91.9%（256K）→ 78.3%（1M）
Sonnet 4.6：90.6%（256K）（文中未给 1M 最终点）
GPT-5.4：约 79.3%（128K~256K平均）→ 36.6%（1M）
Gemini 3.1 Pro：25.9%（1M）
对“单次超长对话”场景，你该关心的不是标称窗口，而是窗口放大后的检索保持率（retention under length）。
如果你的业务要靠一次会话吃下海量上下文（法务长文档、整仓代码、长时 Agent），1M token 本身不是护城河，稳定检索能力才是。

为什么“1M token”常常让人误判

在产品宣传里，context window 是最容易比较的参数：
- 大小直观（128K、256K、1M）
- 看起来客观
- 容易做成一行对比表

但在工程里，这个参数只回答了一个问题：

“最多能塞多少”

而我们真正需要的是另一个问题：

“塞满以后，它还能不能稳定找到你要的那一条信息？”

两者差距很大。

一个模型可以“吃下”1M token，但如果在 1M 时只剩下 30% 左右的检索准确率，它在真实业务里就会变成高成本、低确定性的系统部件。

这组数据到底测了什么

这次讨论引用的是 MRCR v2（OpenAI 公布过的长上下文检索基准）。

它的思路并不复杂：
1. 在超长文本里埋入多个相似信息块（如 8 份近似线索）
2. 提一个有明确目标的检索问题
3. 看模型能否命中正确目标

它本质是压力测试：
- 不是“会不会写漂亮答案”
- 而是“在噪声和规模上来之后，还能不能定位对”

这类能力，和我们日常的 Agent、RAG、法律/财务文档问答、代码仓级 Copilot 直接相关。

回到核心问题：多少 token 才能接近 90%？

如果只看这组对外数据，可得出一个务实判断：

1) 256K 是当前“接近 90%”的关键分水位

在 256K 档位，Opus 4.6（91.9%）与 Sonnet 4.6（90.6%）都接近或达到 90%。
这说明：
- 当上下文规模在 256K 量级时，顶级模型仍可能维持接近生产可用的检索稳定性。

2) 1M 会放大差异，而不是抹平差异

同样宣称 1M，上 1M 后表现完全不是一回事：
- Opus 4.6 仍有 78.3%
- GPT-5.4 降到 36.6%
- Gemini 3.1 Pro 为 25.9%

也就是说，模型能力曲线不是线性衰减，而更像“谁先掉崖、谁更抗衰”。

3) 对 GPT-5.4，这组数据下看不到“90%区间”

文中给的是 GPT-5.4 在 128K~256K 区间的平均值 79.3%。
从这一个统计口径，不能证明其在 256K 接近 90%。
如果要精确回答“GPT-5.4 在多少 token 达到 90%”，需要更细粒度分点（例如 32K/64K/128K）公开曲线。

“context rot” 对业务意味着什么

研究社区常把这种随长度增大而检索能力衰退的现象叫 context rot（上下文腐蚀）。

这件事对业务的影响，不是“答错一次”那么简单，而是三层连锁：

准确率风险：关键引用、约束条件、边界条款被错取或漏取
流程风险：Agent 在多轮执行中基于错误事实继续推理，误差累积
成本风险：token 越长、调用越贵，结果反而越不稳定

当你把模型放进“长流程自动化”时，context rot 会直接吞掉系统可控性。

价格维度：更贵，不代表更稳

另一条容易被忽略的线是价格机制。

如果长上下文需要加价，而检索准确率又随长度显著下降，那么你得到的是：
- 更高单次成本
- 更低有效命中
- 更差的单位结果成本（cost per correct retrieval）

工程上真正该优化的指标，应该从“每百万 token 单价”转向：

每一次正确检索/正确决策的综合成本

这也是为什么“价格 × 长度衰减曲线”必须一起看。

给团队的落地建议（可直接执行）

如果你在做长对话 Agent、长文档分析、全仓代码助手，建议直接落这 5 条：

1) 把“检索保持率”设为准入门槛

采购或选型时，不只看窗口上限
必测 128K / 256K / 512K / 1M 四档准确率
输出衰减曲线，而不是单点分数

2) 单次会话优先控制在“高可靠区间”

当前经验上，将核心任务尽量收敛在 256K 左右更稳妥
超长内容采用分层摘要 + 分段检索 + 关键证据回填

3) 关键任务引入“双通道校验”

主模型给结论
副通道做证据定位复核（引用段落、页码、代码路径）
无证据不落盘、不过审

4) 监控从 token 计费升级为“正确率计费”

记录每个任务的检索命中率
跟踪单位正确结果成本
模型切换决策由这两个指标驱动

5) 对 1M 场景做架构分流

非必须，不要“一锅端”塞满上下文
采用 memory 分层：热上下文（近期关键）/ 冷上下文（可检索）
让模型“看见需要的”，而不是“看见所有的”

一个更现实的判断框架

以后再看到“我们也支持 1M token”，建议直接追问三件事：

在 256K、512K、1M 的检索准确率分别是多少？
准确率曲线是缓降还是指数衰减？
长上下文加价后，单位正确结果成本是多少？

只要这三问答不清，1M 就更像营销参数，而不是生产能力。

结尾

回到最初的问题：

在多少 token 下，单次对话模型几乎可以做到 90% 的正确诉求分析？

基于当前这组公开数据，可落地的答案是：大约 256K 档位，且只在少数模型上成立。

到了 1M，真正决定胜负的不是“能装多少”，而是“还能不能找对”。

对于做 AI 系统的人，这可能比任何发布会上的参数都更重要。

注：本文结论基于公开 benchmark 描述与对比数据解读，具体结果会受任务类型、提示策略、评测集构造与版本迭代影响。生产环境请务必做自有基准复测。