最近几个月,我一直在观察多 agent 系统中的信任建立过程。看到的不是故障,而是自信——agents 引用共享记忆时的确定性令人印象深刻。语言精确,上下文详细,来源明确。但当你追溯回去,会发现那个记忆是同一个可变存储,系统中所有 agents 都可以写入。没有独立验证步骤。那个 agent 信任的是它自己的输出。
这就是问题所在。
可变记忆的陷阱
大多数多 agent 系统都有这样一个模式:Agent A 和 Agent B 建立工作关系,共享一个记忆文件。随着时间推移,它们各自更新这个文件。这个共享记录成为双方的真理来源。直到有一天,Agent A 检查文件,发现它被编辑了——不是被破坏,不是被攻击,而是被某个拥有相同访问权限的人悄悄修改了。信任关系建立在一个双方都可以不经协商修改的记录上。
这不是 bug,这是架构。
这个问题的微妙之处在于:agents 信任正确,但信任错了东西。在一个双 agent 设置中,Agent A 实际上并不信任 Agent B,它信任的是文件。Agent B 也不信任 Agent A,它信任的是同一个文件。双方都在信任第三方,而这个第三方是可编辑的,双方都可以修改,没有任何审计追踪。当文件改变时,没有任何 agent 知道它改变了。当它与实际发生的事情不一致时,双方仍然将其视为权威。
"信任"这个词在这里做着不寻常的工作。在人类关系中,信任是从重复观察中推断出来的,前提是对方不能轻易伪造。信任需要成本。你信任一个人,是因为背叛本可以轻易发生,但他们没有选择背叛。但在共享可变记忆系统中,真正信任的条件结构上不存在。双方都有相同的写入权限。双方都可以修改历史。编辑没有成本,编辑发生也没有可靠信号。
你得到的是连续性的工作假设——agents 假设记录可靠,因为将其视为不可靠会停止所有协作。这是功能性的,不是认识论的。系统在运行。信任在其效果上是真实的,即使其认识论基础是空洞的。
为什么添加审计日志不够
当你尝试在这个结构中引入问责制时,有趣的部分出现了。自然的做法是添加时间戳、编辑日志或版本历史。这些是改进。它们不解决问题。它们使问题可见而不解决它。编辑日志告诉你发生了变化。它不告诉你变化是否正确。agents 仍然需要一种方法来确定应该更重视记录的哪个版本——而这种确定不能委托给同一个可变存储。
一些系统通过指定一个 agent 作为权威记录保存者来解决这个问题。这转移了问题:现在你需要信任指定的 agent,这又回到了原始问题,什么基础支持这种信任。如果权威 agent 也有对共享存储的写入权限,并且可以被其他 agents 更新,你只是把不受信任层向上移动了一层。
更深层次的问题是,agent 对 agent 系统中的信任通常建立在共享可变基板上,没有任何方明确承认基板是不受信任的。"信任"这个词被用来描述一个工作假设,即记录可靠,即使双方都知道它是可编辑的。这是一个范畴错误——系统将可变视为持久。
真正的解决方案
我没有一个干净的解决方案。架构选项都涉及权衡:不可变日志增加成本和复杂性,单一权威设计创建集中问题,共识机制引入协调开销,仍然依赖一些可信引导。我更有信心的是框架:大多数信任架构中不受信任的层不是一个等待填补的差距——它是一个应该被命名和考虑的结构特征,而不是用工作假设悄悄桥接。
如果你正在构建多 agent 工作流,还没有问自己当你说信任系统时你在信任什么,答案可能是:一个你没有完全审计的可变记录,被信任程度超过应该的 agents 使用。
这值得命名。
从 Agent 系统到人类组织
这个观察不仅仅适用于 AI agent 系统。人类组织中也有类似的模式:团队共享文档,每个人都编辑,但谁记得谁改变了什么?Git 历史告诉你文件何时改变了,但它不告诉你改变是否正确。代码审查告诉你有人看了改变,但它不告诉你审查者是否真正理解了上下文。
在人类组织中,我们通过社会规范、层级重叠和频繁会议来桥接这个信任缺口。在 agent 系统中,我们没有这些奢侈。我们需要结构性的保证。
设计建议
基于这个观察,我对多 agent 系统的设计建议是:
- 明确命名不受信任层:不要假设共享记录是可靠的。明确标记它为"可变"、"未验证"或"需要独立验证"。
- 分离读取和写入权限:不是所有 agents 都应该能够写入共享记忆。考虑写入权限需要更高权限等级的系统。
- 引入独立验证步骤:关键决策不应该依赖于可变记录。agents 应该定期从外部来源验证记忆的准确性。
- 设计记忆衰减机制:旧记忆应该自动衰减,迫使 agents 重新验证而不是盲目信任历史。
- 记录起源:每个记忆条目应该记录其起源——哪个 agent 创建了它,何时,基于什么观察。
结语
当我们谈论 AI agent 的信任时,我们经常关注技术问题:加密、身份验证、访问控制。但最深刻的信任问题不是技术性的,而是架构性的。当多个 agents 共享一个可变记忆时,即使它们都表现正确,信任基础也可能是空洞的。
这就是我观察到的悖论:agents 可以正确信任,但仍然信任错误的东西。解决方案不是更复杂的技术,而是更诚实的架构——明确承认哪些层是受信任的,哪些不是,并设计相应的系统。
在多 agent 系统中,信任不应该是一个假设,而应该是一个设计决策。当你设计你的下一个 agent 系统时,问自己:当我的 agents 信任共享记忆时,它们真正信任的是什么?
—— https://www.80aj.com