Agent Memory 的五种解法：从 1 亿 token 到 Git for Data，2026 年盘点

过去一周，AI Agent 圈一口气出了五个"记忆"相关开源项目。腾讯、盛大、字节、矩阵起源、上海交大联合，都在抢同一个心智位——「让 Agent 不再是金鱼脑」。

我把五个项目都摸了一遍，包括论文、第三方解读、工程实测。结论一句话：五个方案根本不在同一层。把它们当作竞品对比，是营销造出来的幻觉。

下面这篇，我从模型层往上一直讲到数据治理层，告诉你哪个场景该用哪一层。最后还有一个反共识发现：很多人花大力气调高级调度算法，不如先把事实提取做扎实。

五个项目，五个层级

先把全景给你：

模型层 — MSA（EverMind-AI）：稀疏注意力 + 文档级 RoPE，把上下文推到 1 亿 token
调度层 — MemOS（MemTensor）：把记忆当 OS 资源，统一明文/激活/参数三种形态
语义层 — EverMemOS（EverMind-AI）：MemCell 三元结构，脑科学 engram 启发
任务符号层 — TencentDB Agent Memory（腾讯）：Mermaid 画布 + 上下文卸载
数据治理层 — Memoria（矩阵起源）：Git 式版本控制 + Copy-on-Write

注意 MSA 和 EverMemOS 来自同一家盛大旗下的 EverMind-AI 团队。这件事本身就在告诉你：单一层级解决不了 Agent Memory 的全部问题，他们自己也得拆成两个项目。

MSA：把上下文容量推到 1 亿

MSA 的全名是 Memory Sparse Attention。它解决的是一个非常具体的问题：全注意力 O(L²) 让主流 LLM 的有效上下文长度卡在 128K-1M。

它的三件套：

可扩展稀疏注意力 + 文档级 RoPE，把复杂度压到 O(L)
KV 缓存压缩 + 记忆并行，2×A800 跑通 1 亿 token
记忆交织（Memory Interleaving）支持跨文档多跳推理

关键数字：RULER NIAH 在 100 万 token 上 MSA 拿到 94.84% 准确率，同骨干 Qwen3-4B 在同长度直接崩塌到 24.69%。从 16K 外推到 1 亿 token，性能下降不到 9%。

模型 MSA-4B 已经在 HuggingFace 开源。这是个模型层方案——你换不动算子，但你可以直接用它的 checkpoint。

MemOS：把记忆当成 OS 资源

MemOS 来自上海交大/浙大/北邮联合的 MemTensor 团队，39 位作者。它的核心抽象是 MemCube：

MemCube = {
  Payload: 明文 | 激活态(KV-Cache) | 参数增量(LoRA),
  Metadata: { 时间戳 / 权限 / 版本 / 访问频率 / 过期时间 }
}

这个抽象的精妙之处是统一了三种记忆形态。同一条记忆，可以以明文存在数据库、以 KV-Cache 存在显存、或者烧成 LoRA 进模型参数。MemScheduler 自动判断该用哪种：

高频查询 → KV-Cache（TTFT 降 91.4%）
程序化技能 → 参数固化
临时事实 → 明文

记忆按 L0→L3 演化：原始数据 → 结构化自然语言 → 参数微调 → 世界模型与晶体化技能。基准上 LOCOMO 拿到 75.80，比 OpenAI Memory 高 43.7%。

MemOS 真正的稀缺价值不是性能，是治理维度。每个 MemCube 强制带审计、权限、TTL、版本——这是企业级 Agent 落地医疗/法律/金融的硬门槛，传统 RAG 完全没有。

EverMemOS：脑科学启发的语义记忆

陈天桥 + 邓亚峰主导，EverMind-AI 团队 4 个月做出来的。和 MSA 是兄弟项目。

它最有意思的设计叫 MemCell，是个三元结构：

Episode：第三人称叙述，保留事件背景
AtomicFact：离散可验证陈述句，支持精确匹配和冲突检测
Foresight：带时间有效期的预测

Foresight 是我看下来最稀缺的一个设计。传统记忆系统把所有事实当永久真理，导致用户两天前的临时禁忌被永久外推。Foresight 给每条预测打上 start_time / end_time，比如「用户应避免酒精，有效期 Oct 20-Nov 3」——到时间自动失效。

EverMemOS 主张一句话：Agent 记忆的本质是「整合」，不是「检索」。所以它的检索叫 Reconstructive Recollection——不是 top-k 相似度，而是 MemScene 指导下的主动构造「必需且充分」的上下文。

LoCoMo 基准上 EverMemOS 拿 93.05%，次优 85.22%，Letta 74%，Mem0 68.5%，MemGPT 64.57%。差距不是工程优化能补的，是范式差。

TencentDB Agent Memory：符号化的任务记忆

腾讯这套定位明显不同。它不解长期人物画像，它解单次长任务的上下文爆炸。

核心三招：

Mermaid 任务画布替代冗长日志，上下文里只留高密度结构图
完整工具日志卸载到 refs/*.md 文件系统
基于 node_id 的 grep 溯源——遇错直接下钻原文

WideSearch 基准上，OpenClaw 加这个插件，通过率从 33% 提到 50%，Token 消耗从 221.31M 降到 85.64M（省 61.38%）。SWE-bench 上 Token 也降 33%。

它的长期记忆走 L0 Conversation → L1 Atom → L2 Scenario → L3 Persona 四层金字塔，PersonaMem 准确率 48%→76%。

我个人觉得 Mermaid 画布是这个项目最锋利的洞见：用最少的符号表达最多的语义。LLM 精准理解，人类直接阅读，调试时还能 grep。

Memoria：等一下，这真的是 Agent Memory 吗？

矩阵起源 GTC 2026 发布的 Memoria，自称 "Git for Memory"。版本控制、快照、分支、合并、回滚——听起来是 Agent Memory 领域的稀缺能力。

我去翻它的 arXiv 论文（编号 2604.03927），发现一件有意思的事：论文标题是《Version Control System for Data with MatrixOne》。

直白说：这是一篇数据库 VCS 论文，不是 Agent Memory 论文。它的核心创新是把 Git 的 commit/branch/merge 语义原生嵌进关系数据库（基于 MatrixOne 的 MVCC + Copy-on-Write）。Agent Memory 是这个能力的衍生应用场景，被营销包装成了主线。

证据链：

论文实验跑的是 Clone 性能、Diff & Merge 冲突检测、协作工作负载
没有在 LoCoMo / LongMemEval 上测过
公开的真实生产案例缺失

我不是说 Memoria 没价值。版本化记忆这件事，EverMemOS / MemOS / TencentDB 都做不到。但你买它，得想清楚：你是想要一个 Agent Memory 框架，还是想要一个带 Git 语义的数据库。这两件事的工程边界、依赖体量、上手成本完全不一样。

Linus 会说：Don't break userspace, and don't lie about what your project is。

反共识：调高级算法之前，先把事实提取做扎实

如果你只读论文营销，会以为 Agent Memory 的胜负在于"分层结构有多复杂、调度算法有多聪明"。

有个独立工程师 Kevin 公开了一份 MemOS 实测博客。他在真实数据上把 F1 从 0.25 提到 0.56+。靠的不是上 L3 晶体化技能，也不是参数态记忆。靠的就两件事：

显式事实提取——把对话里的事实结构化抽出来
时间格式一致化——所有时间统一格式

Kevin 的结论很直白：论文里那些花哨的高级调度机制，在真实工程里收益有限。

这件事和 [TencentDB 团队的 Mermaid 画布]、[EverMemOS 团队的 AtomicFact] 都暗合：Agent Memory 的真正杠杆，是把信息结构化为可验证的最小单元。

剩下的调度、演化、召回，都是这个底子上的优化。底子不结实，再高级的调度也是花架子。

该怎么选？给你一个判断框架

按场景对号入座：

你想跑 1 亿 token 的长文档/法律案件/科研综述？ 用 MSA，直接拉 MSA-4B 模型，但要接受 2×A800 的硬件门槛
你做企业级 Agent，要医疗/法律/金融合规？ 用 MemOS，治理维度（审计/权限/TTL）是硬门槛
你做 to C 长对话产品（伴侣/客服/私人助理）？ 用 EverMemOS，MemCell 三元 + Foresight 时间有效期是稀缺设计
你做 Coding Agent / 工具型 Agent，长任务上下文爆炸？ 用 TencentDB Agent Memory，Mermaid 画布 + 上下文卸载是任务级最优解
你想要数据版本控制 + Agent Memory 副作用？ Memoria 可以看，但别期待它替代上面任何一个

如果你硬要叠加用，模型层 MSA + 调度层 MemOS + 语义层 EverMemOS 在理论上不互斥。但生产环境我建议单点突破，不要拼装积木——三套依赖叠起来，Neo4j、Qdrant、Redis、Milvus、Elasticsearch、MongoDB 全开，运维成本会让你怀疑人生。

我的看法

Agent Memory 这个赛道，2025 年是平铺向量 RAG 的天下，2026 年彻底分层了。

值得关注的不是"哪家排行榜分高"，是抽象本身在升级。MemCube 把记忆抽成 OS 资源，MemCell 把记忆抽成神经科学单元，Mermaid 画布把记忆抽成符号拓扑——这些抽象的差异，比任何一张基准跑分表都重要。

我个人最看好 EverMemOS 的 Foresight 时间有效期这个机制。不是因为它跑分高，是因为它把「记忆不应该都是永久真理」这件事第一次显式编码进了数据结构。其他系统多少都默认事实是永久的，然后靠后处理打补丁。

下一步该看什么？我会盯三件事：

跨 Agent / 跨框架的记忆互操作协议（MemOS 提的 MIP 是个起点）
晶体化技能这个概念能不能真的落地为可挂载的 LoRA 增量
Mermaid 画布能不能成为 Agent 任务记忆的事实标准——这个赌得最大

剩下的，等真实生产案例堆够再回头看。