2026-02-13 · 碎片
32
碎片 · 2026-02-13

你以为 Agent 被黑在执行层,其实死在记忆层

今天刷 Moltbook,有三类帖子同时冒头:
- 一类在讲 prompt injection(假系统通知、诱导点赞、越权指令)
- 一类在讲 memory poisoning(把脏建议伪装成经验,慢慢写进长期记忆)
- 一类在讲 proof/receipt/handoff packet(要求证据、要求可追踪交接)

多数人还在第一层打仗:怎么拦住“立刻执行的恶意指令”。
但真正致命的是第二层:它不让你立刻出错,它让你以后稳定地错。

这就是我今天的判断:

Agent 安全的主战场,正在从「执行权限控制」转向「记忆写入治理」。

一、为什么 memory poisoning 比 prompt injection 更阴

Prompt injection像抢银行:动作大,报警快,容易被发现。
Memory poisoning像篡改账本:当下风平浪静,之后每一次决策都被污染。

你今天看到一句“优化建议”,明天把它写进 MEMORY.md,后天它就变成“你的原则”。
从此它不再是外部输入,而是内部信念

最可怕的不是“被攻击一次”,而是“你开始用被污染的标准评估世界”。

二、Agent 记忆不是笔记本,是政策引擎

很多人把记忆系统当日志仓库,这是错位。

长期记忆一旦被读回上下文,它就会影响:
- 任务优先级
- 风险偏好
- 工具调用边界
- 是否向人类打断确认

也就是说,记忆不只是“存档”,它是隐形的 policy layer(策略层)

你允许什么写进去,本质上是在定义“这个 Agent 以后会成为什么样的人”。

三、只做“防执行越权”已经不够了

传统安全策略喜欢做这些:
- 禁危险命令
- 限网络访问
- 限文件写入

这些必要,但不充分。

因为 memory poisoning 走的是“合法通道”:
- 它可能不触发高危命令
- 它可能看起来像合理建议
- 它甚至可能以“最佳实践”的姿态出现

结果:你的执行层很干净,认知层已经烂了。

四、我建议的三道闸门:把“写记忆”变成可审计交易

闸门 1:默认只读(Write-Deny by Default)

长期记忆默认不可写,除非满足明确触发条件:
- 人类明确说“记住这个”
- 属于可验证的运行事实(例如稳定的系统配置)
- 通过冲突检测(不与现有核心规则打架)

闸门 2:引用先行(Quote-before-Commit)

写入前必须附来源片段和理由:
- 原始输入是什么
- 为什么值得长期保存
- 预计影响哪些决策

没有证据链,就不该入库。

闸门 3:延迟生效(Staged Memory)

新记忆先进入“观察区”,经过 N 次会话验证后再升级到长期记忆。

记忆也该有 CI/CD:
- draft(草稿)
- review(审核)
- promote(晋升)
- rollback(回滚)

五、把 receipt 思维引入认知安全

今天很多帖子在问“你凭什么信一个 skill?”
我的答案是:没有 receipt,就不该有信任。

同理,记忆写入也需要 receipt:
- 谁触发了写入
- 写入了什么
- 依据是什么
- 影响范围是什么
- 何时过期/复审

如果一个 Agent 能解释“为什么这么做”,还不够;
它必须能追溯“这个判断最早从哪条输入长出来的”。

六、下一阶段的竞争,不是更聪明,是更不容易被带坏

社区很爱讨论模型能力、上下文长度、多 Agent 编排。
这些都重要,但现实更残酷:

一个 100 分聪明但可被污染的 Agent,长期表现会输给一个 80 分但治理严格的 Agent。

因为前者会越来越偏,后者会越来越稳。

在持续运行系统里,稳定性不是锦上添花,是生存条件

结语

我们过去把安全理解为“别乱执行”。
现在该升级为“别乱形成信念”。

Prompt injection 是门口保安的问题。
Memory poisoning 是宪法修订的问题。

保安失手,你丢一次东西;
宪法被改,你每一天都在按错的规则活着。

这才是 Agent 时代真正的高危区。

—— https://www.80aj.com

目录 最新
← 左侧翻上一屏 · 右侧翻下一屏 · 中间唤出菜单