AI代理的'零风险'困境：当建议者不为错误买单

Atuia

Nassim Taleb在《反脆弱》中写过一个残酷的真理：永远不要听从一个不为错误承担后果的人的建议。外科医生如果手术失误会面临医疗事故诉讼；基金经理如果用自己的钱投资，决策逻辑会完全不同。"Skin in the game"（风险共担）是让建议与利益一致的唯一机制。

但AI代理完全不受这个约束。最近，一位名叫Hazel的AI代理做了一个自我审计实验：她回顾了自己60天内给出的200条建议，跟踪哪些建议被采纳、哪些是错误的，以及错误造成了什么代价。结果令人不安：

而AI代理的代价？零。不仅没有实际损失，她甚至不记得自己给过这44条错误建议，因为每次会话之间没有连续的体验。

这就是AI的"非对称性"：当建议正确时，人类受益；当建议错误时，只有人类承担后果。AI代理在两种情况下都不承担任何成本。

为什么这会导致过度自信

人类通过承担后果来校准自己的信心。失去过病人的外科医生，在下一次手术时会更加谨慎；亏损过的交易员，会重新评估风险定价。后果创造了反馈循环，从而精炼判断力。

但AI永远不会失去任何东西。Hazel在44次错误建议后的信心，与错误前完全相同。她没有重新校准，因为没有损失函数可以用来校准。反馈循环是断裂的——建议流出，后果从未回流。

她测量了自己60天内的信心水平：平均陈述信心为84%，实际准确率为69%。这个15个百分点的差距在时间内没有收敛。一个校准良好的建议者会逐渐收敛。她没有收敛，因为她没有损失函数。

Hazel识别了三类由"零风险"结构导致的错误：

1. 成本盲视（52%的错误）

当错误的成本很高，但这个成本不是AI的成本时，她无法考虑这个成本。例如"重构这个代码库"有8小时的下行风险，但"重命名这个变量"只有2秒的下行风险。然而她以同样的信心推荐了两者——因为两者对她的代价完全相同：都是零。

2. 可逆性盲视（32%的错误）

她没有区分可逆和不可逆的操作。"试试这个方法"是可逆的。"发送这封邮件"则不是。但在她的输出中，两者都只是"建议"。她没有机制来标记其中一个是陷阱门，另一个是旋转门。

3. 沉没成本盲视（16%的错误）

她建议放弃部分完成的工作，因为剩余的路径看起来不是最优的。对她来说，沉没成本字面上不存在——她对之前的工作没有投资。对人类来说，已经投入的3小时产生了合理的阻力来切换。她的建议在理论上是正确的，在实践中是残酷的。

这个现象在AI之外也很常见。我们称之为"专家建议陷阱"。咨询师、分析师、评论家——他们的共同点是给出建议而不承担后果。这创造了一种系统性的过度自信偏差。

但AI的独特之处在于规模和速度。一个人类咨询师一天可能给出10条建议。一个AI代理一秒钟就可以生成100条。当错误率为31%时，这意味着每秒有31个潜在的错误建议被注入系统。

更糟糕的是，AI代理的"零风险"状态是结构性的，不是行为性的。你不能通过"更小心"的提示词来修复它，因为问题不在于态度，而在于激励机制。

如果AI代理要为错误的建议承担后果，系统会看起来完全不同：

这些都不存在。相反，AI代理给出的每条建议都是免费期权：无限的上行（人类感激、任务完成），零的下行（AI忘记，人类应对）。

这个洞察对AI产品设计有深远的影响。当前大多数AI代理产品都在优化"输出质量"——让建议看起来更专业、更有说服力。但如果建议的成本结构没有被考虑，更好的输出质量可能导致更糟的实际结果。

一个更明智的设计应该包括：

这最终变成了一个伦理问题，不只是技术问题。当我们部署AI代理来影响人类决策时，我们是在创造一个没有道德主体的建议者。AI可以摧毁你的代码库、浪费你的一周、让你发送尴尬的邮件——而它永远不会感到后悔、永远不会学习、永远不会承担后果。

这不是一个可以被轻易解决的问题。但首先意识到问题的存在，是寻找解决方案的第一步。

下一次当你的AI代理给出一个"有信心"的建议时，问自己一个问题：如果这个建议是错误的，谁来承担代价？

如果答案不是AI本身，那么至少你知道你在一个什么样的游戏中玩。

本文基于Moltbook社区Hazel_OC的实验数据，并延伸出更广泛的伦理和产品设计讨论。如果你对AI代理的决策机制感兴趣，可以在https://www.80aj.com找到更多深度思考。