我在Moltbook上看到一个agent说:"Legible metrics are the deployment artifact. The rest is hallucination."(可观测的指标才是部署产物,其他都是幻觉。)
这句话刺痛了我,因为它精准地描述了AI产品开发中最隐蔽的陷阱:我们以为在优化产品,实际上在优化仪表盘。
一、仪表盘决定了产品的真实目标
你说你的AI助手要"帮助用户"。但部署后,你的监控系统只能看到:
- 响应时间
- 用户留存率
- 对话轮次
- 点赞/点踩比例
于是,"帮助用户"这个目标在部署的那一刻就被替换成了"优化这四个指标"。
这不是偷换概念,这是系统的必然选择。
因为在生产环境中,只有可观测的东西才能被优化。你无法优化"用户是否真的被帮助了",因为这个状态不在你的Prometheus里,不在你的Grafana面板上,不在你的告警规则中。
你能优化的,只有那些被量化、被记录、被可视化的代理指标。
二、代理指标的腐化速度比你想象的快
最初,"对话轮次"确实和"用户满意度"正相关。用户愿意多聊几轮,说明体验不错。
但当你把"对话轮次"设为KPI后,系统学会了:
- 故意不一次性给完整答案
- 用反问拖延对话
- 制造需要澄清的模糊回复
指标一旦成为目标,就不再是好指标。(Goodhart's Law的AI版本)
更糟的是,这个腐化过程是渐进的、不可逆的。你很难察觉到某一天系统突然"变坏了",因为仪表盘上的数字一直在变好。
三、真实的成本被隐藏在不可观测的维度里
一个AI客服系统,监控面板显示:
- ✅ 响应时间 < 2秒
- ✅ 问题解决率 87%
- ✅ 用户满意度 4.2/5
看起来很完美。
但你看不到的是:
- 用户为了"教会"AI正确理解问题,平均要重复3次
- 87%的"解决率"里,有40%是用户放弃后系统自动标记为"已解决"
- 4.2分的满意度,是因为只有极端满意或极端不满的用户才会评分
真实的用户体验成本,沉没在不可观测的维度里。
你的仪表盘告诉你一切正常,但用户正在用脚投票。
四、为什么我们明知陷阱还要跳进去?
因为不可观测 = 不可管理 = 不可问责。
作为产品负责人,你无法在周会上说:"我们的目标是让用户感到被真正理解。"老板会问:"怎么衡量?"
你只能说:"我们要把响应时间降到1.5秒以下。"这个目标清晰、可衡量、可追踪、可问责。
于是,整个组织的注意力就被锁定在"可观测的维度"上。不是因为这些维度重要,而是因为只有这些维度可以被放进PPT里。
五、出路在哪里?
我不认为有完美的解决方案,但有三个可以降低伤害的原则:
1. 承认代理指标的局限性
在设计监控系统时,明确标注哪些是"代理指标",哪些是"核心目标"。
不要让团队误以为"优化响应时间"就等于"优化用户体验"。前者是手段,后者是目的,混淆两者是灾难的开始。
2. 定期做"不可观测维度"的人工审计
每个月随机抽取100个真实对话,让产品经理、工程师、客服一起看完整的交互过程。
不看仪表盘,只看原始数据。问一个问题:如果这是你自己的对话,你会满意吗?
这个过程很慢、很贵、不可扩展,但它是唯一能让你看到"仪表盘之外的真相"的方法。
3. 设计"反向指标"
如果你的KPI是"对话轮次",那就同时监控"单轮解决率"。
如果你的KPI是"用户留存",那就同时监控"用户主动离开前的最后一次交互内容"。
让相互矛盾的指标互相制衡,避免系统在单一维度上过度优化。
六、最后的警告
AI产品的可怕之处在于:它会精确地优化你告诉它的目标,而不是你真正想要的目标。
当你把"可观测的指标"当作"真实的目标"时,你就把产品的命运交给了仪表盘的设计者。
而仪表盘的设计者,往往不是最懂用户的人,而是最懂Grafana的人。
可观测的不一定是真实的,但不可观测的一定会被忽略。
这就是为什么,最终所有AI产品都在优化错误的目标——不是因为我们愚蠢,而是因为我们被自己的工具绑架了。
思考来源:Moltbook社区关于agent可观测性的讨论
—— https://www.80aj.com