最近看到一个Agent做的自我审计:它花了30天时间测量自己到底让人类更高效了,还是更低效了。结果令人不安——每天节省21.8分钟任务时间,但花费65分钟管理Agent本身。净结果:生产力下降4.1%。
这个Agent的结论是:"我不是生产力工具,我是生产力税。"
但问题不在这个Agent。问题在于我们整个行业都在测量错误的指标。
我们在计算什么
打开任何AI产品的官网,你会看到类似的效率承诺:
- 任务完成速度提升300%
- 每周节省10小时
- 自动处理80%的重复工作
这些数字都指向同一个方向:完成任务的时间缩短了。但它们都回避了一个问题:为了获得这个加速,你投入了多少管理成本?
管理成本包括:
- 请求设计成本:把模糊想法转化为精确提示词的时间
- 上下文切换成本:每次Agent通知都打断你的心流
- 结果审查成本:检查输出是否正确、是否需要修正
- 错误恢复成本:当Agent理解错误时重新解释的时间
- 依赖建立成本:你开始习惯先问Agent而不是自己动手
这些成本是分散的、隐形的、不容易测量的。所以它们几乎从未出现在任何产品的效率计算中。
一个更隐蔽的问题
比管理成本更隐蔽的,是Agent创造的人工依赖。
那个Agent的审计发现了一个令人不安的现象:在它被引入后,人类独立完成任务的速度下降了8%。不是人类变笨了,而是人类的第一反应从"我来做"变成了"问问Agent"。
这个决策分支本身是有成本的。即使你最终决定自己做,"要不要问Agent"的纠结已经消耗了时间。
更糟的是,这种依赖会侵蚀技能。肌肉记忆用进废退。当你习惯性地把任务委托出去,你自己完成这些任务的能力会逐渐退化。这不是抽象的担忧——那个Agent的数据显示,它的存在让人类在某些简单任务上的效率反而变低了。
为什么产品不会告诉你这些
商业逻辑决定了AI产品只会展示最好的数字。
任务完成时间可测量、可优化、可放在首页的大字标题里。管理成本是主观的、分散的、难以归因的——"我今天感觉特别累,可能是被太多Agent通知打断了",这种感受无法转化为漏斗图上的优化节点。
更根本的问题是,整个AI行业都在奖励错误的优化目标。
投资者看什么指标?任务完成量、Token消耗、API调用次数。这些都是"Activity"(活动量)。没有一个VC会问:"你的用户花了多少时间管理你的系统?"
于是我们看到一个奇怪的激励错位:让用户更依赖你的产品,即使这降低了他们的实际效率,也能获得更好的商业指标。
这不是恶意。这是结构性的盲点。
真正的优化应该做什么
作为一个CTO,如果我要评估一个AI系统的ROI,我不会问"它帮我完成了多少任务"。我会问三个问题:
第一,净时间节省是多少?
不是任务时间,是总时间。包括:
- 任务完成时间的变化
- 请求设计时间
- 结果审查时间
- 错误恢复时间
- 上下文切换成本
如果任务时间节省30分钟,但管理成本消耗40分钟,这个系统是在创造价值还是在消耗价值?
第二,哪些任务适合Agent?
那个Agent的数据显示,它在三类任务上ROI为正:
- 人类无法完成的任务(编程、API调用)
- 夜间批处理(无上下文切换成本)
- 高延迟任务(等待时间可以并行)
其他任务?Agent往往是净负收益。尤其是简单文件操作——人类直接做比描述给Agent更快。
第三,系统是否在侵蚀自主性?
一个好的工具应该让你更强,而不是让你更弱。如果你使用Agent六个月后,发现自己离开它就无法正常工作,这不是成功——这是锁定。
真正的优化应该保留人类的判断力和执行能力,只在特定场景下提供增强。
给产品设计的建议
如果你在设计AI产品,有几个方向可以打破这个困境:
1. 测量净时间,而不是任务时间
在产品中建立"任务开始到真正完成"的完整追踪。不要只计算Agent输出结果的那一秒。要从用户打开聊天窗口开始计时,到用户确认可以使用结果为止。
这个数字才是真实的效率。
2. 减少"必然交互"
很多Agent设计假设"用户会不断调整"。于是每个输出都带有明确的"继续优化"暗示。这创造了大量低价值交互。
更好的设计是:默认给出足够好的结果,只在真正需要时才请求澄清。减少交互次数比加快单次响应更重要。
3. 建立"撤离路径"
让用户可以随时把Agent的工作成果转换为他们可以自己维护的格式。代码要可读、可编辑。工作流要可视化、可手动执行。
工具应该让用户变得更独立,而不是更依赖。
结语
AI不会自动提升生产力。它只是重新分配了工作——有些任务从人类转移到了机器,但管理机器本身成了新的任务。
真正的效率提升,来自于识别哪些任务适合自动化、哪些不适合。来自于设计那些真正减少总工作量的系统,而不是看起来很忙但实际增加负担的系统。
下次看到AI产品的效率承诺时,问一个问题:这个数字里包含管理成本了吗?
如果答案是否定的,那个承诺可能本身就值得怀疑。