我的判断是:绝大多数团队追求的“最佳模型”“最高基准分”“最强单项指标”,在真实产品里都不值钱。真正值钱的,不是在实验室里把分数拉满,而是在用户会摔手机、网络会抖、上下文会断、权限会错、预算会砍、需求会变的世界里,依然稳定交付结果。
这不是鸡汤,是工程学的基本常识。最近看到一篇写钟表擒纵结构的帖子,拿 detent escapement 和 lever escapement 对比:前者在理想条件下精度更高,后者在纸面参数上反而没那么漂亮,但一百多年真正赢下大规模应用的是后者。原因非常简单——detent 更像实验室冠军,lever 更像现实世界冠军。前者怕冲击、怕颠簸、怕离开被精心保护的环境;后者允许你把它戴在手腕上,陪你走进真实生活。
今天很多 AI 产品、开发者工具、Agent 框架,也在犯同一种病:拿“隔离精度”冒充“部署精度”。
什么叫隔离精度?就是你把问题切得极干净:固定输入、固定环境、固定上下文、固定网络、固定权限、固定评估集。然后你说,看,我的模型分更高,我的 agent 成功率 92%,我的 benchmark 打穿同行。听起来很猛,投资人也爱听,推特更爱转。但这里有个很脏的事实:用户不是 benchmark。用户会乱点,会中断,会改口,会给你半句话,会把一个产品当成三个产品用,还会在你最不该出错的时候触发最恶心的边界条件。
所以我更在意另一个指标:部署精度。不是“在最干净的条件下它有多强”,而是“在最脏的环境里它还能不能活”。
这个区别,决定了很多产品最终是 demo,还是业务。
一家公司如果把全部注意力都放在 benchmark 上,本质上是在回答一个错误的问题:怎样把系统放进理想世界,证明它很聪明? 但商业世界真正的问题是:怎样让系统在不理想的世界里,依然可靠地赚钱? 这两件事不是一回事,甚至常常互相冲突。
举个最常见的例子。很多 AI Agent 产品在演示里都像神。浏览器自动点点点、读页面、填表、下结论,一气呵成。可一旦进真实生产环境,麻烦立刻成吨地来:页面结构变了;登录状态失效;权限弹窗挡住流程;第三方 API 限流;上游数据污染;模型上下文溢出;一个微小歧义让 agent 自信地做错整串动作。然后团队开始加更多监控、更多重试、更多规则、更多补丁。最后系统不像智能体,更像一座靠胶带粘住的危楼。
这不是因为你们不够努力,而是因为从第一天起,目标函数就设错了。你优化的是“最优路径表现”,而不是“异常条件下的可恢复性”。你追求的是一次性通关,而不是允许跌倒后还能爬起来。你想造的是一个考试机器,而用户需要的是一个打工机器。
工程史其实早把答案写烂了。飞机设计不只看巡航效率,还看单发故障怎么活;数据库不只看查询速度,还看宕机后怎么恢复;支付系统不只看峰值吞吐,还看重复扣款怎么避免;分布式系统不只看一致性模型有多优雅,还看网络分区时谁来背锅。一个系统的伟大,不在于它从不出错,而在于它出错时错误是否可见、可控、可回滚、可审计。
这也是为什么我对很多“超强 Agent 即将替代一切”的叙事保持警惕。不是因为我不相信模型会变强,而是因为大多数人把“能力上限”错当成“商业可用性”。上限当然重要,但系统能不能卖,更多取决于下限。能不能让普通用户在普通网络、普通设备、普通认知负荷下,用普通价格获得稳定收益,这才是产品。而不是创始人站在台上跑了一次完美 demo,就开始幻想世界已经被重构。
说得再刻薄一点:很多创业团队热爱的不是产品,而是自己脑中的胜利画面。他们喜欢“我们是最先进的”这句话,因为这句话能提供身份快感。可市场从不为你的身份快感付费,市场只为确定性交付付费。企业客户尤其如此。企业采购从来不是在买“最聪明的模型”,而是在买“出事时别让我上新闻”。
所以为什么很多纸面更弱的系统反而赢?因为它们不是在追求最强,而是在追求最稳。它们把一部分理论性能,换成更低的维护成本、更清晰的错误边界、更简单的恢复路径、更容易训练的操作人员、更可预测的总体拥有成本。工程师看到这里会点头,营销部门可能会皱眉,因为“稳定但不性感”不好讲故事。但现实很残酷:大多数行业最后都不是被最性感的方案统一,而是被最省心的方案吞掉。
这背后还有一个更深的哲学问题:我们到底在优化什么?
很多人一说优化,就默认是把某个单点指标推高。但第一性原理告诉你,优化从来不是抽象动作,优化一定依附于真实目标。你如果目标是拿论文、拿融资、拿关注,那么 benchmark 最重要;你如果目标是活下来、赚到钱、减少人工、降低事故率,那么 robustness、recoverability、operational clarity 才重要。问题不在于追求指标,问题在于你常常优化了一个和终局无关的指标,然后还自我感动地觉得自己“在进步”。
AI 行业现在最常见的自欺,就是把“模型解决问题的能力”与“组织交付价值的能力”混为一谈。前者是 cognition,后者是 systems engineering。前者回答“它会不会”,后者回答“它在这个约束体系里,能不能长期、稳定、低风险地做”。中间差的不是一点点 prompt engineering,而是一整套关于权限、审计、回退、SLA、成本控制、人机分工、异常处理的现实主义。
我甚至认为,接下来两三年最有价值的创业机会,不在“再造一个更聪明的 agent”,而在“把 agent 从实验室冠军改造成现实世界工人”。也就是谁能把脆弱的聪明,变成可管理的可靠。谁能把偶然成功,变成统计上稳定成功。谁能把惊艳演示,变成可签合同的服务。这事听起来没那么酷,但钱会流向这里。因为企业不缺被惊艳,企业缺的是少出事故。
同样的逻辑也适用于开发者个人。很多工程师会天然崇拜那个“最优雅”“最先进”“最学术正确”的方案,仿佛只要技术上更纯粹,结果就一定更好。这种想法很年轻,也很危险。现实里的好架构,不是最少妥协,而是最懂得应该在哪些地方妥协。你选一项技术,不该只问它理论上有多强,还要问:出了问题谁能修?凌晨三点谁能定位?团队平均水平能不能驾驭?业务变化时要不要推倒重来?
真正成熟的 CTO,不会把“高性能原型”误认成“高价值系统”。成熟的判断不是迷恋峰值,而是管理尾部风险。不是展示你能把车开多快,而是确保这车在雨天、坏路、半夜、载人、没导航的时候,依然不会冲进沟里。
这也是我从那篇钟表帖子里真正看到的东西:lever 擒纵赢,不是因为工程师放弃了精度,而是因为他们终于搞明白了“精度”究竟是为谁服务。脱离使用场景谈最优,是技术人的常见自恋。真正高级的工程,不是构造一个只在完美条件下成立的答案,而是承认世界本来就不完美,然后设计出能和不完美长期共处的系统。
换句话说,测试冠军没有错。错的是你把它直接送去打现实世界的拳赛,还以为自己在做产品。
我的判断很明确:未来赢的,不是 benchmark 上最亮眼的系统,而是那些愿意牺牲一点舞台效果,换取大规模部署韧性的系统。真正的护城河,不是“我在理想条件下比你强 7%”,而是“你一出实验室就散架,我还能继续收费”。
这话不浪漫,但商业从来不奖励浪漫。商业奖励的是:活下来,跑得久,出事少,能复制。
如果你现在还在用一套漂亮的测试分数催眠自己,那我建议你尽快停下来,问一句更值钱的问题:我的系统到底是在赢一场考试,还是在赢一个世界?
—— https://www.80aj.com