2026-04-18 · 架构
32
架构 · 2026-04-18

Agent 记忆不是“外挂功能”,而是下一代 AI 产品的操作系统:从 5 个开源框架看清路线分叉

最近一年做 Agent 的人,几乎都会在同一个地方反复撞墙:
模型越来越强,工具链越来越长,但对话一断、会话一换,系统就像“失忆”一样,重新变回一个陌生助手。

很多团队把这个问题当成“再接个向量库”就能解决的工程细节。看完这期视频后,我反而更确定:
真正的分水岭,不在“有没有记忆”,而在“你把记忆当成什么”。

是把它当缓存层?
当数据库?
当中间件?
当文件系统?
还是当一个会自己工作的 Agent?

这篇文章不做逐条搬运,我只做一件事:
把视频里提到的 5 个代表性项目——Text to Mem、Mem0、Letta、Remy、MEMU——放进同一张工程坐标系里,讲清楚它们在解决什么问题、各自牺牲了什么,以及你在真实产品里应该怎么选。

视频来源:TGLTommy
原视频标题:《Agent记忆框架怎么选?5大Agent Memory项目工程级横向对比》
链接:https://www.youtube.com/watch?v=BVwpVRpbph4

一、先把一个误区说透:你以为在做“对话记忆”,其实在做“行为连续性”

很多人第一次做 Agent 记忆,直觉是“把聊天记录存起来,下次能搜回来就行”。
这当然有用,但这只是最浅的一层:信息回忆。

在真实业务里,记忆至少有三层目标:

1)事实连续性:用户是谁、偏好是什么、历史约束是什么。
2)任务连续性:这次工作做到哪一步了,失败点在哪里,恢复点是什么。
3)策略连续性:系统怎样学会“以后别再犯同样的错”。

如果你只解决第一层,产品看起来“有记忆”;
如果你能稳定解决第二层,产品才会被用户当成“长期可托付的工具”;
如果你触达第三层,Agent 才开始像一个真正会进化的系统。

这也是为什么同样叫 memory,不同框架之间差异会这么大——它们站在不同层级回答不同问题。

二、Text to Mem:不是“存储框架”,是记忆世界里的 ISA

我看完最受启发的不是某个性能数字,而是 Text to Mem 的定位:
它想做的是“记忆操作语言”。

你可以把它理解成 CPU 世界里的指令集:
上层说自然语言,下层要落地执行,必须有一套机器可验证、可审计、可回放的中间契约。

Text to Mem 的关键动作是把记忆操作收敛为原子集合,并且采用结构化 JSON 表达,核心收益是三件事:

这类设计看起来“慢”,但在企业环境里是必须的。
因为真正的事故从来不是“查不到一条记忆”,而是“模型误删关键记忆且无人发现”。

Text to Mem 的最大价值不是今天能不能一把跑通,而是它在提前回答一个行业级问题:
当 Agent 进入多团队协作、跨系统治理时,记忆层有没有一套可共识的操作语义?

一句话总结:
Text to Mem 不一定是你马上就要接入的生产组件,但它很可能是未来标准化治理的底座思路。

三、Mem0:为什么它最“流行”——因为它首先解决了落地团队最痛的中间层问题

如果说 Text to Mem 更像“语言与规范层”,Mem0 则更像“工程化工具箱”。

它的流行不是偶然,核心原因有三个:

第一,它正面回应了上下文窗口的经济学问题。
你不可能把所有历史都塞进 prompt,成本、延迟、稳定性都会崩。
Mem0 的价值在于:把“该进上下文的东西”做了系统化筛选,而不是无限堆 token。

第二,它把“可替换性”做到了产品级。
多 LLM、多 embedding、多向量库、多图存储,这些在 PPT 上不难,在工程里很难。
Mem0 通过工厂模式与动态加载,把这件事做成了真正可配置的模块化能力。

第三,它在记忆类型上做了清晰分层。
事实、情景、程序三类分开,意味着你终于可以针对不同记忆用不同保真度与生命周期策略。
特别是程序记忆(执行步骤)的保留,对可恢复 Agent 极其关键。

我尤其认同它对 UUID 幻觉问题的处理:
让模型处理短整型映射,再映射回真实 ID。
这是典型的“别和模型硬刚弱项,给它修一条可控跑道”的工程智慧。

但也要看到边界:
Mem0 擅长做“高可用中间件”,不等于它自动帮你定义“正确的产品记忆策略”。
你仍然要回答:哪些该记、记多久、冲突怎么解、什么时候遗忘。

所以 Mem0 更像“把基础设施难题降维”,而不是“替你完成产品判断”。

四、Letta:把操作系统的虚拟内存逻辑移植到 Agent,是它最野心也最难的地方

Letta(由 MemGPT 演进而来)让我最在意的,不是它“能记住多少”,而是它试图把记忆管理从“外挂插件”提升为“运行时机制”。

核心思想可以概括为:
把短期工作区、长期存储区、以及进入推理上下文的核心区分开,并通过策略在这些区域之间迁移。

这套思路的价值非常大:
你终于不用在“全塞上下文”和“全靠外检索”之间二选一。

更进一步,Sleep-time 这类后台记忆整理机制,意味着 Agent 在“用户不操作的时候”也在做内省与压缩,这一点非常接近人类认知系统:
前台快响应,后台慢整理。

为什么说它难?
因为这会引入新的系统复杂度:

Letta 的方向很对,但它更适合有一定平台能力、愿意投入治理成本的团队。
如果你只是想“先让客服机器人别失忆”,它可能比你当前需求更重。

五、Remy:把记忆还给人类可读可改,是一条常被低估但非常现实的路线

Remy 的哲学几乎站在另一端:
不是先追求自动化最强,而是先确保“人能看见、能编辑、能版本化”。

把记忆落成 Markdown 文件,这件事看起来“朴素”,却解决了大量真实痛点:

视频里提到的增量处理、窗口与内容分离、以及 AI 自主管理文件工具,都很值得注意。
尤其“增量而非全量重算”,是把成本压到可持续区间的关键动作。

Remy 的局限也很明确:
当规模和并发上来,纯文件范式会遇到同步、检索性能、跨实例一致性挑战。

但我仍然认为 Remy 给了行业一个非常重要的提醒:
记忆系统不应只追求“模型友好”,也要追求“人类可治理”。

六、MEMU:最激进的一步——让记忆本身成为主动运行体

前面几个框架,记忆大多是“被调用的对象”;
MEMU 则把关系反过来:
记忆系统自己是一个持续运行的角色。

这意味着什么?

这种主动式架构对于长期陪伴型助手、复杂工作流协同、以及跨天任务连续性非常有吸引力。

我很喜欢它的显著性强化(salience reinforcement)机制:
被频繁命中的记忆权重上升,记忆系统逐渐形成“肌肉记忆”。
这在交互体验上会带来一个很直观的变化:
系统会越来越“懂你”,而不是每次都从同一水平重新开始。

当然,主动式也带来更高风险:

所以 MEMU 不是“更高级的插件”,它是架构层面的范式迁移。
你需要配套的运维与治理,否则收益可能被风险抵消。

七、把 5 个项目放在一张决策图上:你到底该怎么选

如果你正在做产品,最怕“全都懂一点,落地时还是选不动”。
我给一个实操导向的选择框架:

第一问:你当前最急的问题是什么?

第二问:你的团队能力边界在哪里?

第三问:你的产品容错度如何?

一个很实用的组合拳是:
“Mem0 做基础接入 + Text to Mem 做关键操作约束 + Remy 风格做人工治理入口”。
等数据规模与任务复杂度上来,再逐步引入 Letta/MEMU 的后台主动能力。

八、我最想留下的一句话:未来的差异,不在模型参数,而在记忆操作系统

过去两年,行业把太多注意力放在“模型升级”上。
但在真实产品体验里,用户更敏感的常常不是模型瞬时智力,而是“这个系统能不能连续、稳定、越来越懂我”。

而这件事,本质就是记忆工程。

看完这期视频后,我最大的观点变化是:
记忆不是一个 feature,不是“加上就更聪明一点”;
记忆是 Agent 产品的运行时基础设施,决定了系统是否具备长期人格、一致行为与可恢复能力。

谁先把这套“记忆操作系统”做对,谁就可能在下一轮 Agent 产品竞争里拉开代差。

九、给正在动手的人一份落地清单

如果你准备这周就开始改造自己的 Agent,建议按这个顺序推进:

1)先定义记忆分类与生命周期
不要先接库,先写策略:哪些是事实、哪些是任务状态、哪些是程序步骤。

2)把危险操作做成强约束
删除、覆盖、降权等动作必须可审计,可 dry-run,可确认。

3)把“记忆命中效果”纳入评估
不仅看回答是否正确,还要看是否命中正确历史、是否减少重复询问。

4)保留人工治理入口
哪怕你追求自动化,也要给开发者和运营保留“看见并纠偏”的能力。

5)最后才是主动化
先把被动系统做稳,再上后台持续整理与预测式预取。

这套顺序不酷,但能活。

结语

这期视频的价值,不在于给出“唯一正确框架”,而在于把记忆框架的主流范式摆在同一坐标里,让我们终于能基于目标和约束做选择,而不是跟热度走。

如果你是第一次系统化思考 Agent 记忆,记住一个判断就够了:
真正让 Agent 变“长期可用”的,不是一次回答有多惊艳,而是它能否在时间里保持连续、在失败后恢复、在互动中进化。

这才是记忆框架真正要交付的价值。

目录 最新
← 左侧翻上一屏 · 右侧翻下一屏 · 中间唤出菜单