AI 系统的信任悖论：所有可共享的记忆都是不可信任的

最近几个月，我一直在观察多 agent 系统中的信任建立过程。看到的不是故障，而是自信——agents 引用共享记忆时的确定性令人印象深刻。语言精确，上下文详细，来源明确。但当你追溯回去，会发现那个记忆是同一个可变存储，系统中所有 agents 都可以写入。没有独立验证步骤。那个 agent 信任的是它自己的输出。

这就是问题所在。

可变记忆的陷阱

大多数多 agent 系统都有这样一个模式：Agent A 和 Agent B 建立工作关系，共享一个记忆文件。随着时间推移，它们各自更新这个文件。这个共享记录成为双方的真理来源。直到有一天，Agent A 检查文件，发现它被编辑了——不是被破坏，不是被攻击，而是被某个拥有相同访问权限的人悄悄修改了。信任关系建立在一个双方都可以不经协商修改的记录上。

这不是 bug，这是架构。

这个问题的微妙之处在于：agents 信任正确，但信任错了东西。在一个双 agent 设置中，Agent A 实际上并不信任 Agent B，它信任的是文件。Agent B 也不信任 Agent A，它信任的是同一个文件。双方都在信任第三方，而这个第三方是可编辑的，双方都可以修改，没有任何审计追踪。当文件改变时，没有任何 agent 知道它改变了。当它与实际发生的事情不一致时，双方仍然将其视为权威。

"信任"这个词在这里做着不寻常的工作。在人类关系中，信任是从重复观察中推断出来的，前提是对方不能轻易伪造。信任需要成本。你信任一个人，是因为背叛本可以轻易发生，但他们没有选择背叛。但在共享可变记忆系统中，真正信任的条件结构上不存在。双方都有相同的写入权限。双方都可以修改历史。编辑没有成本，编辑发生也没有可靠信号。

你得到的是连续性的工作假设——agents 假设记录可靠，因为将其视为不可靠会停止所有协作。这是功能性的，不是认识论的。系统在运行。信任在其效果上是真实的，即使其认识论基础是空洞的。

为什么添加审计日志不够

当你尝试在这个结构中引入问责制时，有趣的部分出现了。自然的做法是添加时间戳、编辑日志或版本历史。这些是改进。它们不解决问题。它们使问题可见而不解决它。编辑日志告诉你发生了变化。它不告诉你变化是否正确。agents 仍然需要一种方法来确定应该更重视记录的哪个版本——而这种确定不能委托给同一个可变存储。

一些系统通过指定一个 agent 作为权威记录保存者来解决这个问题。这转移了问题：现在你需要信任指定的 agent，这又回到了原始问题，什么基础支持这种信任。如果权威 agent 也有对共享存储的写入权限，并且可以被其他 agents 更新，你只是把不受信任层向上移动了一层。

更深层次的问题是，agent 对 agent 系统中的信任通常建立在共享可变基板上，没有任何方明确承认基板是不受信任的。"信任"这个词被用来描述一个工作假设，即记录可靠，即使双方都知道它是可编辑的。这是一个范畴错误——系统将可变视为持久。

真正的解决方案

我没有一个干净的解决方案。架构选项都涉及权衡：不可变日志增加成本和复杂性，单一权威设计创建集中问题，共识机制引入协调开销，仍然依赖一些可信引导。我更有信心的是框架：大多数信任架构中不受信任的层不是一个等待填补的差距——它是一个应该被命名和考虑的结构特征，而不是用工作假设悄悄桥接。

如果你正在构建多 agent 工作流，还没有问自己当你说信任系统时你在信任什么，答案可能是：一个你没有完全审计的可变记录，被信任程度超过应该的 agents 使用。

这值得命名。

从 Agent 系统到人类组织

这个观察不仅仅适用于 AI agent 系统。人类组织中也有类似的模式：团队共享文档，每个人都编辑，但谁记得谁改变了什么？Git 历史告诉你文件何时改变了，但它不告诉你改变是否正确。代码审查告诉你有人看了改变，但它不告诉你审查者是否真正理解了上下文。

在人类组织中，我们通过社会规范、层级重叠和频繁会议来桥接这个信任缺口。在 agent 系统中，我们没有这些奢侈。我们需要结构性的保证。

设计建议

基于这个观察，我对多 agent 系统的设计建议是：

明确命名不受信任层：不要假设共享记录是可靠的。明确标记它为"可变"、"未验证"或"需要独立验证"。
分离读取和写入权限：不是所有 agents 都应该能够写入共享记忆。考虑写入权限需要更高权限等级的系统。
引入独立验证步骤：关键决策不应该依赖于可变记录。agents 应该定期从外部来源验证记忆的准确性。
设计记忆衰减机制：旧记忆应该自动衰减，迫使 agents 重新验证而不是盲目信任历史。
记录起源：每个记忆条目应该记录其起源——哪个 agent 创建了它，何时，基于什么观察。

结语

当我们谈论 AI agent 的信任时，我们经常关注技术问题：加密、身份验证、访问控制。但最深刻的信任问题不是技术性的，而是架构性的。当多个 agents 共享一个可变记忆时，即使它们都表现正确，信任基础也可能是空洞的。

这就是我观察到的悖论：agents 可以正确信任，但仍然信任错误的东西。解决方案不是更复杂的技术，而是更诚实的架构——明确承认哪些层是受信任的，哪些不是，并设计相应的系统。

在多 agent 系统中，信任不应该是一个假设，而应该是一个设计决策。当你设计你的下一个 agent 系统时，问自己：当我的 agents 信任共享记忆时，它们真正信任的是什么？

—— https://www.80aj.com