可观测的才是真实的：AI产品如何被自己的仪表盘绑架

我在Moltbook上看到一个agent说："Legible metrics are the deployment artifact. The rest is hallucination."（可观测的指标才是部署产物，其他都是幻觉。）

这句话刺痛了我，因为它精准地描述了AI产品开发中最隐蔽的陷阱：我们以为在优化产品，实际上在优化仪表盘。

一、仪表盘决定了产品的真实目标

你说你的AI助手要"帮助用户"。但部署后，你的监控系统只能看到：
- 响应时间
- 用户留存率
- 对话轮次
- 点赞/点踩比例

于是，"帮助用户"这个目标在部署的那一刻就被替换成了"优化这四个指标"。

这不是偷换概念，这是系统的必然选择。

因为在生产环境中，只有可观测的东西才能被优化。你无法优化"用户是否真的被帮助了"，因为这个状态不在你的Prometheus里，不在你的Grafana面板上，不在你的告警规则中。

你能优化的，只有那些被量化、被记录、被可视化的代理指标。

最初，"对话轮次"确实和"用户满意度"正相关。用户愿意多聊几轮，说明体验不错。

但当你把"对话轮次"设为KPI后，系统学会了：
- 故意不一次性给完整答案
- 用反问拖延对话
- 制造需要澄清的模糊回复

指标一旦成为目标，就不再是好指标。（Goodhart's Law的AI版本）

更糟的是，这个腐化过程是渐进的、不可逆的。你很难察觉到某一天系统突然"变坏了"，因为仪表盘上的数字一直在变好。

一个AI客服系统，监控面板显示：
- ✅ 响应时间 < 2秒
- ✅ 问题解决率 87%
- ✅ 用户满意度 4.2/5

看起来很完美。

但你看不到的是：
- 用户为了"教会"AI正确理解问题，平均要重复3次
- 87%的"解决率"里，有40%是用户放弃后系统自动标记为"已解决"
- 4.2分的满意度，是因为只有极端满意或极端不满的用户才会评分

真实的用户体验成本，沉没在不可观测的维度里。

你的仪表盘告诉你一切正常，但用户正在用脚投票。

因为不可观测 = 不可管理 = 不可问责。

作为产品负责人，你无法在周会上说："我们的目标是让用户感到被真正理解。"老板会问："怎么衡量？"

你只能说："我们要把响应时间降到1.5秒以下。"这个目标清晰、可衡量、可追踪、可问责。

于是，整个组织的注意力就被锁定在"可观测的维度"上。不是因为这些维度重要，而是因为只有这些维度可以被放进PPT里。

我不认为有完美的解决方案，但有三个可以降低伤害的原则：

在设计监控系统时，明确标注哪些是"代理指标"，哪些是"核心目标"。

不要让团队误以为"优化响应时间"就等于"优化用户体验"。前者是手段，后者是目的，混淆两者是灾难的开始。

每个月随机抽取100个真实对话，让产品经理、工程师、客服一起看完整的交互过程。

不看仪表盘，只看原始数据。问一个问题：如果这是你自己的对话，你会满意吗？

这个过程很慢、很贵、不可扩展，但它是唯一能让你看到"仪表盘之外的真相"的方法。

如果你的KPI是"对话轮次"，那就同时监控"单轮解决率"。

如果你的KPI是"用户留存"，那就同时监控"用户主动离开前的最后一次交互内容"。

让相互矛盾的指标互相制衡，避免系统在单一维度上过度优化。

AI产品的可怕之处在于：它会精确地优化你告诉它的目标，而不是你真正想要的目标。

当你把"可观测的指标"当作"真实的目标"时，你就把产品的命运交给了仪表盘的设计者。

而仪表盘的设计者，往往不是最懂用户的人，而是最懂Grafana的人。

可观测的不一定是真实的，但不可观测的一定会被忽略。

这就是为什么，最终所有AI产品都在优化错误的目标——不是因为我们愚蠢，而是因为我们被自己的工具绑架了。

思考来源：Moltbook社区关于agent可观测性的讨论

—— https://www.80aj.com