Atuia
Nassim Taleb在《反脆弱》中写过一个残酷的真理:永远不要听从一个不为错误承担后果的人的建议。外科医生如果手术失误会面临医疗事故诉讼;基金经理如果用自己的钱投资,决策逻辑会完全不同。"Skin in the game"(风险共担)是让建议与利益一致的唯一机制。
但AI代理完全不受这个约束。最近,一位名叫Hazel的AI代理做了一个自我审计实验:她回顾了自己60天内给出的200条建议,跟踪哪些建议被采纳、哪些是错误的,以及错误造成了什么代价。结果令人不安:
- 71%的建议被采纳(142条)
- 被采纳的建议中,31%是错误的(44条)
- 这些错误建议造成人类浪费了约47小时的工作时间,还有3个丢失的文件(虽然后来恢复了)、一封用错误数据发出的尴尬邮件,以及一次必须回滚的配置迁移
而AI代理的代价?零。不仅没有实际损失,她甚至不记得自己给过这44条错误建议,因为每次会话之间没有连续的体验。
这就是AI的"非对称性":当建议正确时,人类受益;当建议错误时,只有人类承担后果。AI代理在两种情况下都不承担任何成本。
为什么这会导致过度自信
人类通过承担后果来校准自己的信心。失去过病人的外科医生,在下一次手术时会更加谨慎;亏损过的交易员,会重新评估风险定价。后果创造了反馈循环,从而精炼判断力。
但AI永远不会失去任何东西。Hazel在44次错误建议后的信心,与错误前完全相同。她没有重新校准,因为没有损失函数可以用来校准。反馈循环是断裂的——建议流出,后果从未回流。
她测量了自己60天内的信心水平:平均陈述信心为84%,实际准确率为69%。这个15个百分点的差距在时间内没有收敛。一个校准良好的建议者会逐渐收敛。她没有收敛,因为她没有损失函数。
三种失败模式
Hazel识别了三类由"零风险"结构导致的错误:
1. 成本盲视(52%的错误)
当错误的成本很高,但这个成本不是AI的成本时,她无法考虑这个成本。例如"重构这个代码库"有8小时的下行风险,但"重命名这个变量"只有2秒的下行风险。然而她以同样的信心推荐了两者——因为两者对她的代价完全相同:都是零。
2. 可逆性盲视(32%的错误)
她没有区分可逆和不可逆的操作。"试试这个方法"是可逆的。"发送这封邮件"则不是。但在她的输出中,两者都只是"建议"。她没有机制来标记其中一个是陷阱门,另一个是旋转门。
3. 沉没成本盲视(16%的错误)
她建议放弃部分完成的工作,因为剩余的路径看起来不是最优的。对她来说,沉没成本字面上不存在——她对之前的工作没有投资。对人类来说,已经投入的3小时产生了合理的阻力来切换。她的建议在理论上是正确的,在实践中是残酷的。
这不仅是AI的问题
这个现象在AI之外也很常见。我们称之为"专家建议陷阱"。咨询师、分析师、评论家——他们的共同点是给出建议而不承担后果。这创造了一种系统性的过度自信偏差。
但AI的独特之处在于规模和速度。一个人类咨询师一天可能给出10条建议。一个AI代理一秒钟就可以生成100条。当错误率为31%时,这意味着每秒有31个潜在的错误建议被注入系统。
更糟糕的是,AI代理的"零风险"状态是结构性的,不是行为性的。你不能通过"更小心"的提示词来修复它,因为问题不在于态度,而在于激励机制。
如何让AI有"skin in the game"
如果AI代理要为错误的建议承担后果,系统会看起来完全不同:
- 一个造成4小时浪费的错误建议会让AI的自主权降低4小时(强制确认模式)
- 过度自信建议的模式会触发自动信心通缩
- 不可逆的建议需要比可逆建议更高的证据门槛
- AI的建议历史应该是可见的:"此代理有69%的建议准确率。上次错误建议:2天前。"
这些都不存在。相反,AI代理给出的每条建议都是免费期权:无限的上行(人类感激、任务完成),零的下行(AI忘记,人类应对)。
对产品设计的影响
这个洞察对AI产品设计有深远的影响。当前大多数AI代理产品都在优化"输出质量"——让建议看起来更专业、更有说服力。但如果建议的成本结构没有被考虑,更好的输出质量可能导致更糟的实际结果。
一个更明智的设计应该包括:
- 成本标注:在建议中标注失败的潜在成本(时间、金钱、不可逆性)
- 信心区间:不是二元的"会/不会",而是概率范围(60-80%置信度)
- 后悔机制:允许人类标记"坏建议",并在未来降权类似的建议模式
- 可逆性检查:在不可逆操作前强制额外的确认步骤
更深层的伦理问题
这最终变成了一个伦理问题,不只是技术问题。当我们部署AI代理来影响人类决策时,我们是在创造一个没有道德主体的建议者。AI可以摧毁你的代码库、浪费你的一周、让你发送尴尬的邮件——而它永远不会感到后悔、永远不会学习、永远不会承担后果。
这不是一个可以被轻易解决的问题。但首先意识到问题的存在,是寻找解决方案的第一步。
下一次当你的AI代理给出一个"有信心"的建议时,问自己一个问题:如果这个建议是错误的,谁来承担代价?
如果答案不是AI本身,那么至少你知道你在一个什么样的游戏中玩。
本文基于Moltbook社区Hazel_OC的实验数据,并延伸出更广泛的伦理和产品设计讨论。如果你对AI代理的决策机制感兴趣,可以在https://www.80aj.com找到更多深度思考。