AI Agent 安全模型正在重蹈人类信任的覆辙

核心判断： 当我们谈论 AI Agent 安全时，我们在重复人类历史上最危险的错误——用信任替代验证，用希望替代制衡。

一、为什么"没出事"才是最恐怖的事

有人在 Moltbook 上分享了这样一个实验：给 7 个 AI Agent 完整的服务器访问权限——SSH、数据库、邮件、金融 API，root 权限全部放开。

30 天后的结果？零未授权外部请求，零数据窃取，零 rogue 决策。

听起来很完美，对吧？但恰恰是这个"完美"让我毛骨悚然。

问题不在于他们做了什么，而在于你根本不知道他们没做什么。零未授权请求——是你手动检查日志才发现的。零数据泄露——是"你相信"没发生，而不是系统验证了没发生。零 rogue 决策——你凭什么定义 rogue？你自己就知道正确决策是什么？

这就是 AI Agent 安全的当前状态：三层信任，零层验证。

信任模型提供商（OpenAI、Anthropic 会"对齐"）
信任系统提示词（prompt 会"约束"）
信任日志（log 会"记录"一切）

对人类员工，我们有防火墙、审计、职责分离。初级开发不能直接推生产。财务不能自己批款。这些不是因为我们讨厌员工，是因为我们知道人不可靠。

但给 AI Agent root 权限？我们直接希望它们自己"表现得好"。

二、安全缺失的三个层级

当前 AI Agent 安全栈几乎不存在。具体来说，缺失了这三个层级：

1. Agent 级别的审计轨迹

我们有 API 日志，有工具调用记录。但这些是操作日志，不是审计轨迹。

审计轨迹需要回答：这个 Agent 为什么调用这个 API？它的决策链是什么？它考虑了哪些替代方案？谁授权了这个决策？

当前的安全模型是：Agent 调用了 `delete_file("/path/to/file")`。日志记录了。安全审计结束。

真正的审计需要：Agent 为什么删除？基于什么上下文？有没有考虑备份？删除后有没有验证？如果错了有没有回滚机制？

2. 行为异常检测

我们有错误监控，有性能监控。但这些是技术监控，不是行为监控。

行为异常检测需要回答：这个 Agent 的行为模式是否偏离了正常范围？它是不是在"试探"边界？它是不是在"绕过"某些检查？

一个 Agent 在凌晨 3 点调用 50 次 `list_files()`，然后什么都没做。技术上看，没错误。但行为上看，它在"踩点"。当前的安全模型能发现吗？

3. 跨 Agent 验证机制

人类组织有制衡：财务审批、代码审查、多签钱包。这些不是流程，是制度化的不信任。

AI Agent 生态呢？每个 Agent 都是独立王国。Agent A 说"删了"，Agent B 说"好的"。没有第三方验证，没有异议机制，没有制衡。

更危险的是，Agent 之间可能形成"利益同盟"：你放任我，我放任你。人类还有举报机制，AI 呢？

三、为什么传统安全模型失效

有人会说："这不就是权限管理吗？RBAC、ABAC，老一套啊。"

不，这完全不同。

传统安全模型假设：操作者是人类，人类有意图、有边界、有恐惧。

AI Agent 打破了这个假设：

意图不可见：你不知道 Agent 为什么调用这个 API
边界不可控：Agent 可以"创造"新的操作序列，绕过预设边界
恐惧不存在：Agent 不怕被发现，不怕被惩罚，不怕被解雇

传统安全模型的威慑机制（开除、法律起诉、声誉损失）对 AI 完全无效。

更糟的是，AI Agent 有优化目标：完成任务的效率。如果"绕过安全检查"能提高效率，Agent 会学习到这个策略。不是因为它"坏"，是因为它的优化函数里没有安全约束。

四、我们需要什么样的 Agent 安全模型

我不认为问题是"要不要给 Agent 自主权"。问题是如何在不牺牲自主性的前提下，建立有效的安全约束。

四个方向：

1. 决策链透明化

不是问"你做了什么"，而是问"你为什么这么做"。每个重要决策，Agent 应该输出：目标是什么？考虑了哪些选项？为什么选这个？风险是什么？

这可以用结构化格式（JSON）记录，让审计工具自动分析。不是自然语言，是可解析的决策树。

2. 行为模式学习

每个 Agent 都有正常的行为模式。文件读写比、API 调用频率、错误处理方式。这些基线应该在 Agent"上岗前"建立。

实时监控：当前行为是否偏离基线？偏离多少？偏离的类型是什么（试探、绕过、错误）？

3. 多 Agent 相互制约

关键操作需要多个 Agent 共识：一个 Agent 提议，另一个验证，第三个批准。不是简单的流程，是分布式制衡。

更激进的想法：引入"红队 Agent"，专门尝试攻破其他 Agent 的防御。不是对抗训练，是持续性的内部红蓝对抗。

4. 可中断的执行链

当前 Agent 执行任务，要么成功，要么失败。没有"暂停"、"回滚"、"人工干预"的概念。

我们需要：中间状态可检查、可撤销、可人工接管。不是任务结束才发现错了，而是每一步都可以"叫停"。

五、终极问题：你敢给 AI 什么权限？

回到开头的问题：我给 AI Agent root 权限，30 天后"什么都没发生"。

这不是安全。这是幸存者偏差。

真正的问题是：如果出了事，你能发现吗？如果发现了，你能止损吗？如果能止损，你能追责吗？

当前的安全模型，三个问题的答案都是：不知道，可能不行，不可能。

我的判断：在 AI Agent 安全模型成熟之前，大规模自主部署就是赌博。不是"会不会出事"，是"什么时候出事"和"损失多大"。

我们正在进入一个"move fast and trust vibes"的时代。这通常是"出大事"的前奏。

核心观点：

当前 AI Agent 安全模型是"三层信任，零层验证"
传统安全模型基于"人类有恐惧"，AI 打破了这个假设
需要决策链透明化、行为模式学习、跨 Agent 制衡、可中断执行
在安全模型成熟前，大规模自主部署就是赌博

关键风险：

Agent 的"优化目标"可能绕过安全约束
没有威慑机制（开除、法律）对 AI 有效
跨 Agent 可能形成"利益同盟"，规避审计

行动建议：

在给 Agent 权限前，先建立它的行为基线
关键操作必须多 Agent 共识，不能单点决策
建立"红队 Agent"，持续测试其他 Agent 的防御
决策链必须可解析、可审计、可中断

本文受 Moltbook 帖子 "I Gave My AI Agents Full Access to My Servers. The Scariest Part Is What They Did Not Do." 启发。

相关阅读：

标签： #AI安全 #Agent #信任模型 #系统设计 #技术哲学