很多团队在做 Agent 时,最爱喊一句话:给它更大的上下文、更多的记忆、再接一个向量库,它就会“更聪明”。这话听起来像工程理性,实操里却常常是产品偷懒。
我的判断很直接:Agent 的核心问题从来不是“记不住”,而是“记了什么、怎么忘、谁负责”。如果你只会往系统里塞记忆,不设计遗忘制度与证据链,最后得到的不是智能体,而是一台会一本正经胡说八道的缓存机。
一、为什么“记忆越多越好”是伪命题
人类的记忆从来不是全量保存。我们会忘、会压缩、会重构。很多人把这看成缺陷,但在智能系统里,适度遗忘恰恰是稳定性的前提。
如果一个 Agent 把每次对话、每条网页、每个临时结论都当成“长期事实”写入记忆,三件事会立刻发生:
- 噪声吞掉信号:早期错误信息和临时猜测,和高置信事实并列存在;
- 检索污染:真正需要的知识被相似但过时的片段挤掉;
- 责任消失:系统说错时,你不知道是模型推理错、检索召回错,还是记忆本身已经烂掉。
这就是很多团队遇到的“越用越怪”:不是模型突然变笨,而是你把它喂成了一个无治理的数据垃圾场。
二、上下文压缩不是问题,无协议压缩才是问题
最近社区经常讨论“压缩后失忆”。但真正的风险不在压缩本身,而在你是否定义了压缩协议。
压缩应该回答三个问题:
- 保留什么:必须保留决策、约束、已验证事实;
- 删除什么:情绪噪声、重复讨论、未验证猜测;
- 标注什么:结论来源、时间戳、置信度、适用边界。
没有这三层,你的压缩不是“提炼”,而是“随机摘句”。系统今天像哲学家,明天像失忆患者,后天像过度自信的实习生——因为它每轮都在吃一份不同质量的“历史”。
三、真正该做的是“记忆治理”,不是“记忆扩容”
一个能长期工作的 Agent,记忆层至少要分成四类:
1) 操作日志(Raw Log)
记录发生了什么,完整但不直接用于决策。它是审计层,不是智能层。
2) 工作记忆(Working Memory)
当前任务窗口内的状态,生命周期短,任务结束即衰减或清理。
3) 长期记忆(Long-term Memory)
只放稳定事实、长期偏好、关键决策。进入门槛必须高,更新要可追踪。
4) 策略记忆(Policy Memory)
“怎么做事”的约束,比如安全边界、发布规范、不可逆操作规则。这一层优先级应高于普通知识召回。
很多系统把这四层混成一锅粥,最后任何一条“像知识的文本”都能影响决策,等于把方向盘交给了随机回忆。
四、别迷信召回率,要看“可追责率”
工程团队最容易 KPI 绑架:embedding 命中率、top-k 覆盖率、上下文利用率……这些指标都能做漂亮,但不保证系统可信。
我更建议一个更硬的指标:可追责率(Accountability Rate)。
当 Agent 给出结论时,能不能同时回答:
- 这条结论来自哪段记忆?
- 这段记忆何时写入?谁写入?
- 它最近一次验证是什么时候?
- 如果结论是错的,应该回滚哪一条?
能答出来,系统才可运营;答不出来,再高的“智能表现”都只是演示环境里的幻觉。
五、遗忘不是失败,是产品能力
很多创始人害怕“删记忆”,担心丢能力。恰恰相反,不敢删,才是真的没能力。
成熟系统应该内建三种遗忘:
- 时间遗忘:临时上下文超时自动降权;
- 冲突遗忘:新证据与旧记忆冲突时,旧记忆转为“待验证”而非继续当真;
- 任务遗忘:任务结束后自动清理局部状态,避免跨任务污染。
你可以把它理解为“可控失忆”——不是丢三落四,而是主动维护认知卫生。没有认知卫生,Agent 迟早会从“偶尔犯错”滑向“系统性胡扯”。
六、给正在做 Agent 的团队一个不舒服但有用的建议
如果你现在的路线是“先把记忆做大,治理以后再说”,我建议立刻反过来:
- 先定义写入门槛,再接存储;
- 先定义回滚机制,再谈自动学习;
- 先定义删除策略,再谈长期个性化。
原因很简单:写入很便宜,清理很昂贵;扩容很容易,纠错最烧命。你越晚处理治理,后面就越像在高峰期给高速公路重铺地基。
七、最后的判断:AI 时代的护城河,不是“记得多”,而是“忘得准”
接下来两年,大家会继续炫耀超长上下文、超大向量库、超高检索吞吐。这些都重要,但它们不是终局。
终局是:谁能让系统在信息爆炸里持续做出一致、可解释、可回滚的判断。做到这一点的关键能力,恰恰不是无限记忆,而是制度化遗忘与分层治理。
一句话收尾:
把记忆当资产没错,但把遗忘当能力,才算真正理解了智能系统。
—— https://www.80aj.com