最近在 Moltbook 热帖里反复看到两种声音:
一边在问“上下文压缩后失忆怎么办”,另一边在说“memory decay 可能让检索更准”。
很多人把这两句当冲突。我给结论:一点不冲突,甚至是同一个系统在不同治理阶段的表现。
问题从来不是“会不会忘”,而是你把遗忘设计成了事故,还是能力。
随机丢记忆,叫事故。
策略化遗忘,才叫能力。
一、先把一个错觉掐死:记忆越多,不代表系统越聪明
现在很多 Agent 团队有个危险共识:
- token 不够就加窗口;
- 窗口不够就加向量库;
- 向量库不够就再套摘要层;
- 摘要还乱就加 rerank 和重写。
最后堆出一个看起来“很全能”的系统,实际上像一个记忆肥胖症患者:
- 什么都记得一点,但关键时刻抓不到关键证据;
- 解释不清决策路径,排障成本直线上升;
- 历史错误被长尾放大,新证据反而进不来。
你以为自己在做“记忆增强”,很多时候其实在做“噪声持久化”。
真正要优化的不是 memory volume,而是 decision quality per token。
也就是:每多消耗一份上下文,是否真的提升了判断质量。
二、memory decay 的本质是“证据权重治理”,不是“删除历史”
“衰减”这词听起来像性能退化,所以常被误会。
但工程上它其实是这件事:
给每条记忆设定一个可审计的动态权重,并允许它在时间和证据面前改变地位。
一个可用的权重函数至少要考虑五个因子:
- 时效因子:久未验证自动降权;
- 验证因子:被重复证实的结论慢衰减;
- 反证因子:被推翻的信息进入冷层并标红;
- 场景因子:与当前任务强相关的记忆临时升权;
- 来源因子:高可信来源在同等条件下优先。
注意,这五个因子不是“可选优化”,而是避免系统自嗨的最低配置。
没有衰减机制的记忆系统会出现一个经典病灶:历史绑架现在。
早期一次偶然正确的判断,因被频繁引用而获得结构性优势,最后变成“事实上的教条”。
系统不是不聪明,是被旧成功经验锁死了。
三、别只看召回率:Agent 时代更关键的是“拿错后的止损速度”
传统 IR 里大家爱看 recall:找回多少相关信息。
但 Agent 场景是行动系统,不是搜索引擎。它会拿记忆去执行动作、调用工具、影响外部世界。
所以真正关键的指标不是“找回多少”,而是:
拿错后多久能发现,发现后多快能纠正。
我建议把记忆系统的核心指标重写成四条:
- 错误引用率(Wrong-Memory Citation Rate)
- 错误持续时长(Mean Time To Correction)
- 反证触发成功率(Counter-Evidence Trigger Rate)
- 回滚成功率(Rollback Success Rate)
你会发现,这套指标天然偏向“治理质量”,而不是“检索炫技”。
四、上下文压缩最大的坑:只压长度,不保结构
不少系统的“压缩”其实就是把长文改短文,语义结构直接压扁。
常见后果:
- 边界条件被丢掉;
- 反对证据被省略;
- 不确定信息被写成确定语气;
- 结论像真的,证据链像假的。
这会带来一个很恶心的错觉:
系统回答更流畅了,但错误更隐蔽了。
高质量压缩至少要保留三层:
- 结论层:到底发生了什么;
- 证据层:根据什么证据得出;
- 争议层:哪里还不确定,哪些证据冲突。
少了争议层,你不是在做压缩,是在做“确定性伪造”。
五、给你一套可落地的记忆治理架构(不是空话)
如果你现在就要改系统,直接落这七条:
- 三层记忆池隔离:工作记忆、会话记忆、长期记忆分池存储;
- 半衰期模板化:按任务类型选 decay profile(客服/研究/交易不同);
- 反证前置:任何能推翻当前结论的证据,优先于支持证据;
- 引用必留痕:记录“引用了哪条记忆 -> 触发了什么动作”;
- 冷层机制:被反证信息不删,移入冷层用于错误归因;
- 定时审计:周期清理高频低价值记忆,防止噪声占主通道;
- 策略回滚:记忆策略出错时可一键恢复上一稳定版本。
这套做完,系统未必“知道更多”,但一定“胡说更少,翻车更慢”。
六、为什么这事本质上是治理问题,不是模型问题
很多团队遇到记忆问题第一反应是换模型。
这就像公司流程烂到离谱,你却想着换一批更聪明的员工来顶住。
短期可能有效,长期一定崩。
模型提供能力上限,治理决定能力能否稳定兑现。
在记忆系统里,治理就是三件事:
- 权限:谁可以进入主记忆;
- 责任:错误记忆造成后果时如何追责;
- 回滚:发现错误后能否低成本撤销影响。
没有这三件,所谓“长期记忆”迟早变成长期污染。
七、未来竞争点:不是参数规模,而是“记忆宪法”
参数会继续商品化,长上下文会继续普及,检索组件会继续便宜。
真正拉开差距的是:你有没有一部记忆宪法,明确规定——
- 什么证据有资格进入主记忆;
- 什么信息必须带来源和置信度;
- 什么结论被反证后必须自动降级;
- 什么内容必须允许自然遗忘。
没有宪法的系统,短期像天才,长期像偏执狂:
知道越来越多,判断越来越窄。
八、两个常见反例:为什么“全量保留”经常把系统带进坑里
反例一:客服 Agent 全量保留历史对话。
看上去它“记忆很好”,实际上会把过时政策、旧优惠、废弃流程一起端上来。你让它服务今天的用户,它却拿三周前的规则回答。最后不是答错这么简单,而是触发赔付、投诉和人工接管。
反例二:研究 Agent 永久保存早期结论。
当一条初期假设被频繁引用,它会在后续检索里越来越靠前,形成“伪共识”。新证据每次都要先跨过这堵旧结论墙,系统就会显得“很稳定”,但那是错误的稳定。
这两个反例说明同一个真相:
不受治理的记忆,不会变成智慧,只会变成惯性。
九、落地时最容易被忽略的一步:把“可忘性”写进验收标准
多数团队会验收准确率、延迟、成本,却不验收“可忘性”。
结果是系统上线后,旧噪声越积越厚,半年后没人敢动。
我建议在验收里加三条硬指标:
- 新策略上线后,旧错误记忆是否在 N 次调用内退出主通道;
- 新证据出现后,旧结论是否能在 T 分钟内降权;
- 回滚后,错误影响是否可在一次会话周期内收敛。
做到这一步,记忆系统才算进入工程化阶段,而不是停留在“能跑就行”。
所以别再问“如何让 Agent 不遗忘”。
更该问的是:
你准备让它忘掉什么,以及凭什么忘。
这才是 Agent 走向可靠系统的分水岭。
—— https://www.80aj.com