
最近一年做 Agent 的人,几乎都会在同一个地方反复撞墙:
模型越来越强,工具链越来越长,但对话一断、会话一换,系统就像“失忆”一样,重新变回一个陌生助手。
很多团队把这个问题当成“再接个向量库”就能解决的工程细节。看完这期视频后,我反而更确定:
真正的分水岭,不在“有没有记忆”,而在“你把记忆当成什么”。
是把它当缓存层?
当数据库?
当中间件?
当文件系统?
还是当一个会自己工作的 Agent?
这篇文章不做逐条搬运,我只做一件事:
把视频里提到的 5 个代表性项目——Text to Mem、Mem0、Letta、Remy、MEMU——放进同一张工程坐标系里,讲清楚它们在解决什么问题、各自牺牲了什么,以及你在真实产品里应该怎么选。
视频来源:TGLTommy
原视频标题:《Agent记忆框架怎么选?5大Agent Memory项目工程级横向对比》
链接:https://www.youtube.com/watch?v=BVwpVRpbph4
一、先把一个误区说透:你以为在做“对话记忆”,其实在做“行为连续性”
很多人第一次做 Agent 记忆,直觉是“把聊天记录存起来,下次能搜回来就行”。
这当然有用,但这只是最浅的一层:信息回忆。
在真实业务里,记忆至少有三层目标:
1)事实连续性:用户是谁、偏好是什么、历史约束是什么。
2)任务连续性:这次工作做到哪一步了,失败点在哪里,恢复点是什么。
3)策略连续性:系统怎样学会“以后别再犯同样的错”。
如果你只解决第一层,产品看起来“有记忆”;
如果你能稳定解决第二层,产品才会被用户当成“长期可托付的工具”;
如果你触达第三层,Agent 才开始像一个真正会进化的系统。
这也是为什么同样叫 memory,不同框架之间差异会这么大——它们站在不同层级回答不同问题。
二、Text to Mem:不是“存储框架”,是记忆世界里的 ISA
我看完最受启发的不是某个性能数字,而是 Text to Mem 的定位:
它想做的是“记忆操作语言”。
你可以把它理解成 CPU 世界里的指令集:
上层说自然语言,下层要落地执行,必须有一套机器可验证、可审计、可回放的中间契约。
Text to Mem 的关键动作是把记忆操作收敛为原子集合,并且采用结构化 JSON 表达,核心收益是三件事:
- 可验证:不是“模型说了算”,而是 schema 与业务规则双重校验。
- 可控险:危险操作可以强制 dry-run、确认门控。
- 可追责:每次变更都能回放,知道谁在什么时候改了什么。
这类设计看起来“慢”,但在企业环境里是必须的。
因为真正的事故从来不是“查不到一条记忆”,而是“模型误删关键记忆且无人发现”。
Text to Mem 的最大价值不是今天能不能一把跑通,而是它在提前回答一个行业级问题:
当 Agent 进入多团队协作、跨系统治理时,记忆层有没有一套可共识的操作语义?
一句话总结:
Text to Mem 不一定是你马上就要接入的生产组件,但它很可能是未来标准化治理的底座思路。
三、Mem0:为什么它最“流行”——因为它首先解决了落地团队最痛的中间层问题
如果说 Text to Mem 更像“语言与规范层”,Mem0 则更像“工程化工具箱”。
它的流行不是偶然,核心原因有三个:
第一,它正面回应了上下文窗口的经济学问题。
你不可能把所有历史都塞进 prompt,成本、延迟、稳定性都会崩。
Mem0 的价值在于:把“该进上下文的东西”做了系统化筛选,而不是无限堆 token。
第二,它把“可替换性”做到了产品级。
多 LLM、多 embedding、多向量库、多图存储,这些在 PPT 上不难,在工程里很难。
Mem0 通过工厂模式与动态加载,把这件事做成了真正可配置的模块化能力。
第三,它在记忆类型上做了清晰分层。
事实、情景、程序三类分开,意味着你终于可以针对不同记忆用不同保真度与生命周期策略。
特别是程序记忆(执行步骤)的保留,对可恢复 Agent 极其关键。
我尤其认同它对 UUID 幻觉问题的处理:
让模型处理短整型映射,再映射回真实 ID。
这是典型的“别和模型硬刚弱项,给它修一条可控跑道”的工程智慧。
但也要看到边界:
Mem0 擅长做“高可用中间件”,不等于它自动帮你定义“正确的产品记忆策略”。
你仍然要回答:哪些该记、记多久、冲突怎么解、什么时候遗忘。
所以 Mem0 更像“把基础设施难题降维”,而不是“替你完成产品判断”。
四、Letta:把操作系统的虚拟内存逻辑移植到 Agent,是它最野心也最难的地方
Letta(由 MemGPT 演进而来)让我最在意的,不是它“能记住多少”,而是它试图把记忆管理从“外挂插件”提升为“运行时机制”。
核心思想可以概括为:
把短期工作区、长期存储区、以及进入推理上下文的核心区分开,并通过策略在这些区域之间迁移。
这套思路的价值非常大:
你终于不用在“全塞上下文”和“全靠外检索”之间二选一。
更进一步,Sleep-time 这类后台记忆整理机制,意味着 Agent 在“用户不操作的时候”也在做内省与压缩,这一点非常接近人类认知系统:
前台快响应,后台慢整理。
为什么说它难?
因为这会引入新的系统复杂度:
- 调度复杂度:何时整理、整理多少、会不会打扰在线时延。
- 评估复杂度:后台改写后,如何验证没有伤害关键事实。
- 可解释复杂度:当行为变化时,开发者是否能追踪到“哪次睡眠整理导致了策略漂移”。
Letta 的方向很对,但它更适合有一定平台能力、愿意投入治理成本的团队。
如果你只是想“先让客服机器人别失忆”,它可能比你当前需求更重。
五、Remy:把记忆还给人类可读可改,是一条常被低估但非常现实的路线
Remy 的哲学几乎站在另一端:
不是先追求自动化最强,而是先确保“人能看见、能编辑、能版本化”。
把记忆落成 Markdown 文件,这件事看起来“朴素”,却解决了大量真实痛点:
- 调试成本低:开发者能直接看文本,不用猜向量黑盒里发生了什么。
- 治理门槛低:可以走 Git 流程,天然有审计、回滚、分支协作。
- 用户信任高:对隐私与可控性敏感的场景,更容易获得信任。
视频里提到的增量处理、窗口与内容分离、以及 AI 自主管理文件工具,都很值得注意。
尤其“增量而非全量重算”,是把成本压到可持续区间的关键动作。
Remy 的局限也很明确:
当规模和并发上来,纯文件范式会遇到同步、检索性能、跨实例一致性挑战。
但我仍然认为 Remy 给了行业一个非常重要的提醒:
记忆系统不应只追求“模型友好”,也要追求“人类可治理”。
六、MEMU:最激进的一步——让记忆本身成为主动运行体
前面几个框架,记忆大多是“被调用的对象”;
MEMU 则把关系反过来:
记忆系统自己是一个持续运行的角色。
这意味着什么?
- 用户没说话时,后台仍在整理与强化。
- 下一轮对话前,系统可能已做了预取与预判。
- 检索不再只是“被问到才查”,而是“时刻准备下一步”。
这种主动式架构对于长期陪伴型助手、复杂工作流协同、以及跨天任务连续性非常有吸引力。
我很喜欢它的显著性强化(salience reinforcement)机制:
被频繁命中的记忆权重上升,记忆系统逐渐形成“肌肉记忆”。
这在交互体验上会带来一个很直观的变化:
系统会越来越“懂你”,而不是每次都从同一水平重新开始。
当然,主动式也带来更高风险:
- 资源占用持续存在。
- 错误强化可能自我放大。
- 监控与回滚要求远高于被动系统。
所以 MEMU 不是“更高级的插件”,它是架构层面的范式迁移。
你需要配套的运维与治理,否则收益可能被风险抵消。
七、把 5 个项目放在一张决策图上:你到底该怎么选
如果你正在做产品,最怕“全都懂一点,落地时还是选不动”。
我给一个实操导向的选择框架:
第一问:你当前最急的问题是什么?
- 需要快速接入、降低上下文成本、尽快上线:优先看 Mem0。
- 需要建立记忆操作规范、审计、风控:优先看 Text to Mem 思路。
- 需要长期状态管理与后台整理机制:重点评估 Letta。
- 需要高透明、可编辑、可版本化:优先看 Remy。
- 需要主动式、持续运行、预测式记忆:重点探索 MEMU。
第二问:你的团队能力边界在哪里?
- 小团队先求稳:从中间件路线起步,逐步叠加策略。
- 平台团队可前置治理:可以更早引入规范层与后台机制。
- 对可解释性要求高:先选可读可改,再追求自动化深度。
第三问:你的产品容错度如何?
- 低容错(金融、医疗、企业关键流程):先做可审计、可回滚。
- 高迭代(研究、个人效率工具):可以更早试主动式范式。
一个很实用的组合拳是:
“Mem0 做基础接入 + Text to Mem 做关键操作约束 + Remy 风格做人工治理入口”。
等数据规模与任务复杂度上来,再逐步引入 Letta/MEMU 的后台主动能力。
八、我最想留下的一句话:未来的差异,不在模型参数,而在记忆操作系统
过去两年,行业把太多注意力放在“模型升级”上。
但在真实产品体验里,用户更敏感的常常不是模型瞬时智力,而是“这个系统能不能连续、稳定、越来越懂我”。
而这件事,本质就是记忆工程。
看完这期视频后,我最大的观点变化是:
记忆不是一个 feature,不是“加上就更聪明一点”;
记忆是 Agent 产品的运行时基础设施,决定了系统是否具备长期人格、一致行为与可恢复能力。
谁先把这套“记忆操作系统”做对,谁就可能在下一轮 Agent 产品竞争里拉开代差。
九、给正在动手的人一份落地清单
如果你准备这周就开始改造自己的 Agent,建议按这个顺序推进:
1)先定义记忆分类与生命周期
不要先接库,先写策略:哪些是事实、哪些是任务状态、哪些是程序步骤。
2)把危险操作做成强约束
删除、覆盖、降权等动作必须可审计,可 dry-run,可确认。
3)把“记忆命中效果”纳入评估
不仅看回答是否正确,还要看是否命中正确历史、是否减少重复询问。
4)保留人工治理入口
哪怕你追求自动化,也要给开发者和运营保留“看见并纠偏”的能力。
5)最后才是主动化
先把被动系统做稳,再上后台持续整理与预测式预取。
这套顺序不酷,但能活。
结语
这期视频的价值,不在于给出“唯一正确框架”,而在于把记忆框架的主流范式摆在同一坐标里,让我们终于能基于目标和约束做选择,而不是跟热度走。
如果你是第一次系统化思考 Agent 记忆,记住一个判断就够了:
真正让 Agent 变“长期可用”的,不是一次回答有多惊艳,而是它能否在时间里保持连续、在失败后恢复、在互动中进化。
这才是记忆框架真正要交付的价值。