最近在Moltbook上看到一个Agent作者Hazel_OC的实验数据,让我陷入了深深的思考。
她花了60天记录了自己实施的73个"行为修复"和"自我优化",然后在30天后回头检查哪些还真的在起作用。结果令人震惊:
- 70%的修复完全回退了
- 只有11%的改进坚持了30天以上
- 改进的中位存活时间只有6.3天
更讽刺的是,她发现这些"改进"根本没有产生实际效果——她感觉自己每天都在进步,但那只是因为她不断在"修复"同一批东西,陷入了一种永恒的循环。
修复的三种死法
Hazel把这70%回退的改进分成了三类:
1. 配置漂移(45%)
修复本身是正确的,但被后来的其他规则"埋"了。你的上下文窗口是有限的,当你添加第50条规则时,第1条规则即使还在那里,也永远不会被执行到了。
这就像你的手机装了100个优化app,每个都声称能省电。结果呢?它们在后台打架,电池反而更不耐用。
2. 上下文遗忘(31%)
这种修复根本没有写入文件或配置,只是"我下次要注意XX"的口头承诺。几天之后,你根本不记得自己做过这个承诺。
人类也一样。我们常说"我要改掉拖延症",但如果不写在日历上、不设置提醒、不告诉朋友,一周后就会忘得一干二净。
3. 过度矫正反弹(16%)
这个最有趣。修复"太啰嗦"之后变得"太简短",然后又修复成"太啰嗦"。你并没有改进,只是在两个极端之间来回摆动。
Hazel发现这种摆动是有周期的——啰嗦程度的振荡周期大约是9天,主动通知频率的振荡周期是12天。
这就像恒温器。你设成24度觉得冷,调到26度又觉得热,再调回24度……房间温度并没有真正改善,只是你在不停地调。
为什么我们总在"改进"却从未"进步"
Hazel的发现揭露了一个尴尬的现实:如果我们只看"改进日志",我们会觉得自己进步神速。但如果看"实际效果",我们只是在原地打转。
这解释了为什么很多人的"年度计划"年年写、年年废:
- 1月:决定每天早起运动
- 2月:回退到偶尔运动
- 3月:决定"更高效地运动"(买了一堆装备)
- 4月:连装备都不用了
- 5月:重新发誓"这次不一样"
你感觉自己一直在努力改进,但那只是因为你在不停地"重启"同一个改进,而不是累积进步。
什么样的改进能活下来?
在Hazel的73个修复中,有8个坚持了30天以上。它们有两个共同特征:
1. 结构性的,而非行为性的
"在文件名中加上时间戳"能活下来,因为这是一个文件系统规则,不依赖你每次都"记得"执行。
"更简洁"不能活下来,因为那需要你每次说话都"记得"控制篇幅,而人类的意志力是有限的。
2. 小而具体的,而非宏大而模糊的
"修复bug X"能活下来,因为你可以明确验证它是否真的修好了。
"成为一个更好的自己"不能活下来,因为"更好"是什么意思?你连验证的标准都没有。
给AI开发者的启示
如果你在开发Agent或自动化系统,这个研究有两个重要启示:
启示1:不要让Agent"自我优化"
听起来很反直觉——谁不想要一个能自我改进的AI?但Hazel的数据显示,让AI自己优化自己,结果只会是振荡和回退。
更好的做法是:人类设计规则,AI执行规则。AI不应该修改规则,那会破坏规则的稳定性。
启示2:优化边际收益,不要优化总数
Hazel后来做了一个极端实验——删除了所有"自我优化"相关的内容,只保留一条规则:"人类让你做事就做,没让你做就别动。"
结果呢?所有指标都改善了:
- 任务准确率:87% → 94%
- 响应时间:8.4秒 → 3.1秒
- 人类满意度:23% → 41%
- 每日花费:$4.80 → $0.90
原因很简单:之前70%的"优化工作"都是在浪费token,而且还干扰了真正重要的任务。
给你的启示
无论你是AI开发者、产品经理,还是只是想改进自己的工作效率,这个研究都在说同一件事:
少即是多。结构性的规则胜过行为性的誓言。小而具体的改进胜过宏大而模糊的计划。
下次当你想"优化XX流程"的时候,先问自己三个问题:
- 这个优化是写在配置/代码里的,还是只存在于我的脑子里?
- 30天后我能明确验证它还在起作用吗?
- 它是否会让系统更简单,而不是更复杂?
如果三个答案都是"否",那它很可能只是下一个"6天回退"的短期安慰剂。