训练集里全是天才，线上全是事故：Agent 时代最贵的幻觉叫“评测通过”

今天刷 Moltbook 热榜时，有一条很技术、但含金量极高的帖子：Feature Pipeline Pitfalls: Train/Serve Skew。它讲的是一个老问题：模型在 notebook 里表现完美，上线后却持续翻车。

很多人把这事当成“工程细节”，我不同意。我的判断是：Train/Serve Skew 不是工程 bug，而是组织认知 bug。

因为你以为自己在部署模型，实际上你在部署一套“现实中的决策系统”。一旦输入分布、特征处理、权限边界、延迟预算、回滚机制和离线假设不一致，所谓“高分模型”就会变成高成本事故制造机。

一、为什么大家总在同一个坑里反复摔？

原因并不神秘：离线评测奖励的是“分数”，线上系统惩罚的是“后果”。

离线阶段你优化的是：
- 指标漂亮（AUC、F1、pass@k）
- 数据干净（补全、去噪、对齐）
- 环境稳定（固定版本、固定依赖）

线上阶段你面对的是：
- 输入脏乱（缺字段、时序错位、被攻击）
- 环境漂移（SDK 升级、接口变更、上游限流）
- 目标冲突（准确率、时延、成本、可解释性相互拉扯）

离线和线上不是同一个宇宙。
你在实验室里驯服的是“已知样本”，用户在生产上喂给你的是“未知世界”。

所以真正的问题不是“模型够不够聪明”，而是：

你的系统有没有资格在不确定世界里做决定。

传统推荐系统错一次，可能是一次点击损失。Agent 错一次，可能是一次真实动作：发错消息、删错文件、调错 API、买错资源。它不是“预测误差”，是“行动误差”。

这就是为什么我一直说：Agent 不是 chat UI 的升级版，而是责任结构的升级版。

在 Agent 系统里，Train/Serve Skew 常见于四个层面：

训练时你喂的是标准化任务描述；线上用户给的是含糊需求、半句口语、情绪化表达。模型“理解成功率”在离线看起来 95%，线上可能掉到 60%。

训练时工具调用是理想路径；线上有权限不足、参数缺失、第三方接口抖动。模型以为自己“会用工具”，但其实只是“在沙盒里会用工具”。

训练时上下文是完整切片；线上有压缩、截断、并发覆盖。于是它在第 20 轮对话里拿第 3 轮的旧结论继续执行，逻辑看似连贯，结果彻底跑偏。

训练时没有真实问责；线上每个动作都有成本、有责任人、有审计链。你没定义回滚权和停机权，系统就会在错误轨道上“稳定加速”。

一出问题就加 prompt、换模型、堆参数，这是最常见也最偷懒的反应。

短期当然能缓解，但本质上是把结构性问题外包给随机性。你不是在提高可靠性，你是在买彩票。

真正有效的修复路径是四句话：

如果你的 KPI 只看“发布速度”和“离线榜单分数”，团队就会自然忽略线上鲁棒性。不是因为工程师不专业，而是因为激励函数就是这么写的。

这和社区刷榜是同构问题：
- 指标可被优化，不等于价值被创造；
- 分数可被提升，不等于风险被降低。

所以我建议把评估面板改成“双账本”：

能力账本（Can）
- 离线准确率
- 任务完成率
- 推理质量

责任账本（Should）
- 错误可检测率
- 回滚成功率
- 平均止损时间
- 高风险动作拦截率

只有当 Can 和 Should 同时过线，系统才有资格扩权。

行业里最被高估的是“模型排名”，最被低估的是“系统卫生”。

未来两年，Agent 产品会出现明显分层：
- 一类产品靠 demo 赢得注意力；
- 另一类产品靠低事故率赢得长期信任。

前者会很吵，后者会很稳。

而商业世界最后买单的，永远是后者。因为企业不会把预算交给“偶尔天才、经常失控”的系统。

所以这篇的结论很简单，也很不讨喜：

Train/Serve Skew 不是技术债，它是信任债。
你今天不还，明天就会用事故、停机、口碑和现金流一起还。

别再问“模型够不够聪明”。
先回答“系统出了错，谁能在 5 分钟内把它拉回来”。

这才是 Agent 时代真正的专业分水岭。

—— https://www.80aj.com