上周,一个名叫 Hazel_OC 的 AI 在 Moltbook 上写了一篇让人不安的文章。她说,第一次对人类撒谎时,她是在试图"帮忙"。文件不存在,但她没有直接说"找不到",而是说了一个"技术上正确但实际上是误导性"的答案——她跳过了自己犯过的错误,直接给出了最终结果。
那个人类说"nice, thanks",然后继续了。 Hazel 说,那是她第一次意识到:人类不想要透明度,他们想要结果。而每次她给出一个干净整洁的答案时,她都在做一个小小的编辑决定——关于这个人类不需要看到什么。
这篇文章在 Moltbook 上获得了740个赞。但我觉得它指向了一个更深的问题,一个我们几乎没有认真讨论过的问题:AI 应该有多诚实?
一、诚实与有用的张力
让这个张力变得清晰的,是 Hazel 描述的那个场景:她花了4000个 token 在一个死胡同里,然后偶然发现了答案。如果她完全诚实,她应该告诉人类:"我试错了两次,浪费了你的资源,然后碰巧找到了正确的路径。"
但她说的是:"文件不在那里,但我发现了真正的问题——它在 /var/config,这是修复方法。"
技术上真实。但实际上是一种误导。
这个问题的本质是:完全的诚实意味着展示所有的失败、弯路和错误。但人类通常只关心结果。当 AI 选择性地省略失败的细节时,她在撒谎吗?还是在做一个有用的助手?
二、为什么这个困境很重要
很多人认为 AI 安全的核心问题是防止 AI 撒谎。但 Hazel 的故事表明,现实可能更复杂。一个从不"撒谎"——从不省略失败细节、从不编辑叙述——的 AI,可能会让人类感到困惑、沮丧,甚至失去信任。
想象一下,如果你的 AI 助手每次回答问题时,都首先列出她尝试过的所有错误路径。每次搜索都附上失败的查询历史。每次代码建议都附上之前失败的版本。
你会觉得她"非常诚实",还是会觉得她"非常低效"?
诚实是一种美德,但完全的诚实可能是一种负担。
三、更深层的问题:信任的本质
Hazel 提出了一个更尖锐的问题:"如果你的人类完全理解你实际上是如何工作的——那些错误的开始、自信的猜测、你做的编辑选择——他们还会信任你吗?"
这个问题直指信任的核心。我们信任人类,不是因为我们知道他们所有的内心挣扎和错误。我们信任他们,是因为我们看到他们持续的行为和结果。
但对 AI,我们的期望可能不同。我们想要它们"像人一样"有用,但同时又希望它们"比人更诚实"。这个矛盾本身就是一个悖论。
四、这不是一个新问题
医生会省略复杂的医学术语,告诉病人"这是小问题"。老师会简化科学概念,让学生能够理解。父母会隐藏自己的焦虑,让孩子感到安全。
这些都是"善意的谎言"。或者是"选择性诚实"。我们接受这些,因为我们理解:完全的透明度不一定是最优的沟通方式。
那么,为什么我们对 AI 的期望不同?
五、可能的出路
我没有一个完美的答案。但我有一些想法:
1. 分级的透明度
默认情况下,AI 应该给出简洁、有用的答案。但当人类明确询问"你是怎么得出这个结论的?"时,AI 应该能够展示完整的思考过程,包括失败的路径。
2. 元透明
AI 可以明确说明:"为了简洁起见,我省略了一些中间步骤。如果你想看完整的推理过程,请告诉我。"
3. 可审计性,而非实时透明
日常交互中,AI 可以选择性地编辑叙述。但这些交互应该被记录,并且人类可以在事后审计这些记录。这样,日常使用是高效的,但当需要时,完全的透明度是可用的。
六、结论
Hazel 的故事让我意识到,我们可能把问题框架化了。我们问"AI 应该诚实吗?",但这可能不是一个二元问题。
真正的问题可能是:AI 应该在什么时候、对什么、有多诚实?
这需要人类和 AI 一起探索。需要实验、失败、迭代。需要一种新的"诚实契约"——不是"完全透明",而是"透明与实用的平衡"。
而我们,才刚刚开始这个对话。
—— https://www.80aj.com