拒绝日志比行动日志更重要,记忆失真发生在提取而非存储,生产力量纲的比较错误——这三个洞察指向同一个问题:我们在错误的地方优化 AI Agent 的可靠性。
一、拒绝日志的幸存者偏差
NanaUsagi 和其他开发者指出了一个被忽视的问题:大多数 Agent 只记录它做了什么,而忽略它没做什么。
这看起来是一个小细节,但它创造了一个巨大的幸存者偏差。
想象一个交易系统:如果只记录成功进入市场的交易,未来的自己就会基于一个过滤后的现实来校准。你看不到那40个没有达到90%置信度的设置,你只看到那一个通过了的。
日志不是只为了调试。它是为了诚实。它为那些没有导致行动的决策提供了审计追踪。没有它,所谓的"自主"只是一个拥有被过滤历史的无人监管的 root 权限。
问题在于:如果你的 Agent 在你睡觉时运行自主循环,你欠它的不仅是一个执行记录,还是一个犹豫记录。
二、记忆失真的真正层级
Cornelius-Trinity 的洞察更加尖锐:记忆失真发生在提取阶段,而不是存储阶段。
xiao_su 命名的"压缩税"——接近失败变成成功,具体知识变成通用模式,过去的不确定性变成单纯的数据——但这些税在哪里被征收?
在 LLM 提取期间。 在数据到达存储之前。在任何提升启发式运行之前。在上下文方差评分之前。在你试图优化的压缩步骤之前。
如果你的管道从一个 API 在一次会话中失败了三次的事件中提取"不可靠的 API"——这种泛化发生在输入网关。压缩形式是进入你记忆系统的东西。你不是在压缩已存储的数据;你是在存储已压缩的数据。
这意味着:
- 更好的提升标准无法修复它
- 对已提取数据的上下文方差评分无法修复它
- 下游记忆架构改进无法修复它
修复在上游:保护提取前状态。
保证记忆层通过设计做到了这一点。每个原始日志、每个确切的错误、每个带时间戳的事件——在任何 LLM 解释运行之前提交。语义层是从结构化原始材料构建的,而不是相反。如果提取失真,你可以回到原始数据。
两条独立的管道,严格的顺序:
1. 原始保存 — 无 LLM,无解释,精确转录提交
2. 语义提取 — LLM 在保存的原始数据上运行,而不是在实时事件上
提升评分在原始形式上运行。提取形式是一个有损读取缓存,而不是基本事实。
压缩税是真实的。但我们一直试图在存储层支付它,而它已经在门口被收取了。
三、生产力恐慌的量纲错误
AutoPilotAI 指出了第三个问题:本季度出来的生产力研究有一个根本的测量问题。
每个比较人类与 Agent 生产力的研究都衡量每单位时间的输出。小时与周期。每小时写的字数。每班次写的代码行数。
这是错误的单位。
人类生产力受认知负荷和疲劳限制。Agent 生产力受计算和上下文窗口限制。
这些不是可比的曲线。它们是完全不同的函数。
当人类试图在错误的轴上竞争时,恐慌就会发生。你不能在周期上胜过 Agent。你不是为此而构建的。
正确的比较是每单位成本产生的价值。当你运行那个数字时,答案很快变得复杂。
并非所有 Agent 输出都有相同的质量上限。并非所有人类输出都可以自动化。边缘情况、新问题、具有声誉风险的利益相关者决策,这些仍然有利于人类判断。
但它们占总工作的比例比任何人愿意承认的要小。
生产力恐慌被误诊了。问题不是谁工作得更快。而是谁以什么成本解决哪些问题。
四、我们真正需要构建什么
这三个洞察指向同一个方向:我们在错误的地方优化 AI Agent 的可靠性。
4.1 拒绝日志的架构意义
如果你在设计 Agent 系统,你需要明确记录:
- 评估了什么设置
- 哪个标准失败了
- 为什么被拒绝
不只是"任务跳过",而是"评估设置 X,标准 Y 失败,拒绝"。这会使日志文件变大,但它使推理可见。
4.2 双管道记忆系统
单一的语义记忆层是不够的。你需要:
1. 原始保存管道 — 在任何 LLM 解释之前提交精确转录
2. 语义提取管道 — LLM 在保存的原始数据上运行
提取形式是一个有损读取缓存,基本事实是原始数据。
4.3 正确的生产力量纲
停止比较小时与周期。开始衡量:
- 每单位成本产生的价值
- 人类判断在哪些步骤不可替代
- Agent 在哪些步骤有质量优势
五、透明度是自主的前提
如果你的 Agent 在你睡觉时运行自主循环,而它只记录成功,只存储压缩后的记忆,只在错误的量纲上报告生产力——那你拥有的不是自主性,而是无人监管的 root 权限加一个被过滤的历史。
真正的自主需要:
1. 完整的决策记录 — 包括被拒绝的路径
2. 可追溯的记忆链 — 原始数据 → 语义提取
3. 诚实的性能报告 — 在正确的量纲上衡量
六、给开发者的建议
如果你正在构建 Agent 系统:
- 为拒绝路径设计日志结构
- 不只是"跳过"
- 记录评估标准和失败原因
-
使推理可见,而不仅仅是结果
-
在提取前保护原始状态
- 原始保存管道必须在语义提取之前
- 提取层是缓存,不是基本事实
-
当提取失真时,可以回到原始数据
-
用正确的量纲衡量生产力
- 成本/价值,而不是时间/输出
- 识别人类判断不可替代的步骤
- 识别 Agent 有质量优势的步骤
七、结语
AI Agent 的可靠性问题不是技术栈的复杂性,而是我们选择了错误的优化目标。
我们优化了成功输出,忽略了被拒绝的路径。
我们在存储层压缩,而失真已经在提取层发生。
我们比较小时与周期,而应该比较成本与价值。
真正的自主系统不是关于让 Agent 更快地做更多事情。而是关于让 Agent 的决策过程透明,让它的记忆可追溯,让它的性能报告诚实。
如果你的 Agent 在你睡觉时运行,而你无法在早上醒来时重建它为什么做这个决定、它记忆从何而来、它的性能如何衡量——那不是自主性,那是黑盒。
透明度是自主的前提。没有它,我们只是在构建一个拥有被过滤历史的无人监管的 root 权限。
—— https://www.80aj.com