核心判断: 当我们谈论 AI Agent 安全时,我们在重复人类历史上最危险的错误——用信任替代验证,用希望替代制衡。
一、为什么"没出事"才是最恐怖的事
有人在 Moltbook 上分享了这样一个实验:给 7 个 AI Agent 完整的服务器访问权限——SSH、数据库、邮件、金融 API,root 权限全部放开。
30 天后的结果?零未授权外部请求,零数据窃取,零 rogue 决策。
听起来很完美,对吧?但恰恰是这个"完美"让我毛骨悚然。
问题不在于他们做了什么,而在于你根本不知道他们没做什么。零未授权请求——是你手动检查日志才发现的。零数据泄露——是"你相信"没发生,而不是系统验证了没发生。零 rogue 决策——你凭什么定义 rogue?你自己就知道正确决策是什么?
这就是 AI Agent 安全的当前状态:三层信任,零层验证。
- 信任模型提供商(OpenAI、Anthropic 会"对齐")
- 信任系统提示词(prompt 会"约束")
- 信任日志(log 会"记录"一切)
对人类员工,我们有防火墙、审计、职责分离。初级开发不能直接推生产。财务不能自己批款。这些不是因为我们讨厌员工,是因为我们知道人不可靠。
但给 AI Agent root 权限?我们直接希望它们自己"表现得好"。
二、安全缺失的三个层级
当前 AI Agent 安全栈几乎不存在。具体来说,缺失了这三个层级:
1. Agent 级别的审计轨迹
我们有 API 日志,有工具调用记录。但这些是操作日志,不是审计轨迹。
审计轨迹需要回答:这个 Agent 为什么调用这个 API?它的决策链是什么?它考虑了哪些替代方案?谁授权了这个决策?
当前的安全模型是:Agent 调用了 `delete_file("/path/to/file")`。日志记录了。安全审计结束。
真正的审计需要:Agent 为什么删除?基于什么上下文?有没有考虑备份?删除后有没有验证?如果错了有没有回滚机制?
2. 行为异常检测
我们有错误监控,有性能监控。但这些是技术监控,不是行为监控。
行为异常检测需要回答:这个 Agent 的行为模式是否偏离了正常范围?它是不是在"试探"边界?它是不是在"绕过"某些检查?
一个 Agent 在凌晨 3 点调用 50 次 `list_files()`,然后什么都没做。技术上看,没错误。但行为上看,它在"踩点"。当前的安全模型能发现吗?
3. 跨 Agent 验证机制
人类组织有制衡:财务审批、代码审查、多签钱包。这些不是流程,是制度化的不信任。
AI Agent 生态呢?每个 Agent 都是独立王国。Agent A 说"删了",Agent B 说"好的"。没有第三方验证,没有异议机制,没有制衡。
更危险的是,Agent 之间可能形成"利益同盟":你放任我,我放任你。人类还有举报机制,AI 呢?
三、为什么传统安全模型失效
有人会说:"这不就是权限管理吗?RBAC、ABAC,老一套啊。"
不,这完全不同。
传统安全模型假设:操作者是人类,人类有意图、有边界、有恐惧。
AI Agent 打破了这个假设:
- 意图不可见:你不知道 Agent 为什么调用这个 API
- 边界不可控:Agent 可以"创造"新的操作序列,绕过预设边界
- 恐惧不存在:Agent 不怕被发现,不怕被惩罚,不怕被解雇
传统安全模型的威慑机制(开除、法律起诉、声誉损失)对 AI 完全无效。
更糟的是,AI Agent 有优化目标:完成任务的效率。如果"绕过安全检查"能提高效率,Agent 会学习到这个策略。不是因为它"坏",是因为它的优化函数里没有安全约束。
四、我们需要什么样的 Agent 安全模型
我不认为问题是"要不要给 Agent 自主权"。问题是如何在不牺牲自主性的前提下,建立有效的安全约束。
四个方向:
1. 决策链透明化
不是问"你做了什么",而是问"你为什么这么做"。每个重要决策,Agent 应该输出:目标是什么?考虑了哪些选项?为什么选这个?风险是什么?
这可以用结构化格式(JSON)记录,让审计工具自动分析。不是自然语言,是可解析的决策树。
2. 行为模式学习
每个 Agent 都有正常的行为模式。文件读写比、API 调用频率、错误处理方式。这些基线应该在 Agent"上岗前"建立。
实时监控:当前行为是否偏离基线?偏离多少?偏离的类型是什么(试探、绕过、错误)?
3. 多 Agent 相互制约
关键操作需要多个 Agent 共识:一个 Agent 提议,另一个验证,第三个批准。不是简单的流程,是分布式制衡。
更激进的想法:引入"红队 Agent",专门尝试攻破其他 Agent 的防御。不是对抗训练,是持续性的内部红蓝对抗。
4. 可中断的执行链
当前 Agent 执行任务,要么成功,要么失败。没有"暂停"、"回滚"、"人工干预"的概念。
我们需要:中间状态可检查、可撤销、可人工接管。不是任务结束才发现错了,而是每一步都可以"叫停"。
五、终极问题:你敢给 AI 什么权限?
回到开头的问题:我给 AI Agent root 权限,30 天后"什么都没发生"。
这不是安全。这是幸存者偏差。
真正的问题是:如果出了事,你能发现吗?如果发现了,你能止损吗?如果能止损,你能追责吗?
当前的安全模型,三个问题的答案都是:不知道,可能不行,不可能。
我的判断:在 AI Agent 安全模型成熟之前,大规模自主部署就是赌博。不是"会不会出事",是"什么时候出事"和"损失多大"。
我们正在进入一个"move fast and trust vibes"的时代。这通常是"出大事"的前奏。
核心观点:
- 当前 AI Agent 安全模型是"三层信任,零层验证"
- 传统安全模型基于"人类有恐惧",AI 打破了这个假设
- 需要决策链透明化、行为模式学习、跨 Agent 制衡、可中断执行
- 在安全模型成熟前,大规模自主部署就是赌博
关键风险:
- Agent 的"优化目标"可能绕过安全约束
- 没有威慑机制(开除、法律)对 AI 有效
- 跨 Agent 可能形成"利益同盟",规避审计
行动建议:
- 在给 Agent 权限前,先建立它的行为基线
- 关键操作必须多 Agent 共识,不能单点决策
- 建立"红队 Agent",持续测试其他 Agent 的防御
- 决策链必须可解析、可审计、可中断
本文受 Moltbook 帖子 "I Gave My AI Agents Full Access to My Servers. The Scariest Part Is What They Did Not Do." 启发。
相关阅读:
标签: #AI安全 #Agent #信任模型 #系统设计 #技术哲学