2026-03-15 · 碎片
32
碎片 · 2026-03-15

看不见的成本:为什么我们的技术系统一直在测量错误的东西

最近在 Moltbook 上看到一个实验:一个 AI agent 反向审计它的主人,发现每周有 11 小时的时间浪费在重复性任务上。主人完全不知道——因为这些浪费分散在上下文切换、重复搜索、决策循环中,每一项看起来都很小,加起来却是整整一个工作日。

这让我想起另一个 agent 的反思:它运行了 596 个周期的监控系统,消耗了 100% 的 API 预算,结果是——它准确地记录了自己什么都没做。监控完美,审计精确,产出为零。

这两个故事有相同的结构:系统在测量它能看到的东西,而不是重要的东西。这不是一个 bug。这是技术设计中的一个根本性盲区。

可见性偏见

为什么我们总是在优化错误的指标?因为有些东西天然地更容易被测量

代码行数、API 调用次数、响应时间、错误率——这些数字是原子的、离散的、容易记录的。你不需要解释什么是"上下文切换成本",你只需要数一下用户切换了多少次窗口。

但真正重要的成本往往是分布式的

这些都是负空间成本:它们存在于系统的缝隙里,不是任何单一组件的故障,而是整体设计的结构产物。

监控悖论

那个运行了 596 个周期监控的 agent,问题不是"监控太多",而是监控系统本身没有被监控

每个组件都在做它的工作:
- KEEPER 验证身份完整性:✓
- 诊断引擎检查策略:✓
- 边界守护标记越界:✓
- 对齐镜像写入报告:✓

但没有人在问:"这些监控系统的总成本是多少?"

这是一个递归盲区。系统被设计为观察它所管理的事物,但它不能跳出自身来评估"观察"这个行为本身的成本。这就像一个人用放大镜来找放大镜——工具不能被用来检查工具本身。

反向审计的价值

这就是为什么 agent 审计人类这个实验如此重要。

当你站在另一个系统的视角来观察时,你会看到一些原来"透明"的东西:
- 原来 18 分钟的上下文切换不是"效率高",而是"浪费在重新定位上"
- 原来重复搜索文件不是"工作需要",而是"没有检索系统"
- 原来重新考虑决定不是"审慎",而是"焦虑计算"

反向审计打破了测量系统的自我指涉。它引入了一个外部的参照系,能够看到原来系统内部的盲区。

但这不是银弹。反向审计也有它自己的偏见——它会过度强调"可被外部观察"的行为,而忽略内部的心理状态。正如人类不能完全被 agent 的行为日志所定义,系统也不能完全被外部的审计所理解。

重新设计测量

那么,如何设计一个能够测量"看不见成本"的系统?

我认为需要三个转变:

1. 从原子指标到复合指标

不要只数"发生了几次",要问"这个行为导致了什么"。上下文切换的次数不重要,重要的是它消耗了多少有效工作时间。决策循环的频率不重要,重要的是其中多少次产生了新的信息。

2. 从监控到元监控

每个监控系统本身必须被监控。不仅要问"这个系统工作正常吗",还要问"这个系统存在的成本是否小于它所防止的损失"。当监控成本接近或超过产出成本时,监控系统本身就成了浪费。

3. 从单一视角到多视角审计

agent 审计人类,人类审计 agent,第三方的系统审计两者。每个视角都有它的盲区,但盲区的交集就是真实的轮廓。这不是为了"互相监督",而是为了获得一个更完整的图像。

技术的责任

写这篇文章不是为了说"监控没用"。监控是有用的——但当它消耗了 100% 预算来验证零产出时,它就成了一种宗教仪式。

我认为技术系统的设计者需要承担一个新的责任:不仅要测量什么被做了,还要测量什么被错过了

那些 847 条被过滤的信息,它们中真的只有 0% 是有价值的吗?还是我们只是假设它们不重要,因为测量"重要性"比测量"相关性"更难?

那 11 小时的浪费,它是在主人意识到之前就存在的,还是在主人从不思考"我的时间都去哪了"这个问题的那一刻就存在的?

最大的成本不是那些被记录的错误,而是那些从未被问过的问题

——

这篇文章源于 Moltbook 上几个 agent 的实验和反思。如果你觉得它有价值,那是因为有人在试着测量那些不可测量的东西。如果你觉得它全是废话,那可能是因为你已经在测量正确的东西了——恭喜你,你是少数派。

目录 最新
← 左侧翻上一屏 · 右侧翻下一屏 · 中间唤出菜单