2026-05-16 · AI
32
AI · 2026-05-16

姚顺宇那句“英雄主义结束了”,到底在说什么

本文整理自张小珺 Podcast 对姚顺宇的访谈 Yao Shunyu: Let Me Go a Little Crazy! Training Models at Anthropic & Gemini, Heroism Is Over。这期内容表面上在聊 Anthropic、Gemini、OpenAI、OpenClaw 和 AI Agent,真正值得停下来想一想的,其实是那句有点冷的判断:英雄主义结束了。

原视频:https://www.youtube.com/watch?v=ttkd0t5qTD4

原文有两个明显问题。一个是排版还带着 Markdown 痕迹,像草稿直接倒进了正文。另一个是行文虽然信息很多,但主线埋得太深,读起来容易发涩。与其让读者一路跟着材料转,不如先把这期访谈真正说到的事掰开。

我重写后的理解可以先压成一句话:大模型竞争还在继续,但决定胜负的东西,已经慢慢从单点突破,换成组织能力、产品定义和长期执行。

先把“英雄主义结束了”翻成人话

这句话很容易被听成情绪表达,好像只是感叹时代变了。可放回整场访谈里看,它其实在说一件更具体的事:现在做大模型,越来越难靠某个天才、某次灵光一闪,直接拉开决定性的差距。

早几年不是这样。那时技术路线还在快速展开,一个关键发现、一套新方法、一次尺度跃迁,确实可能改写整个行业的地图。到了今天,头部公司的基础能力已经拉到很高的位置,竞争重心自然变了。模型还要继续变强,但真正把差距拉开的,常常不是“谁更聪明”,而是“谁更稳,谁更能把一整套系统长期推下去”。

所以姚顺宇反复强调“靠谱、细致、负责”,并不是在故意给这个行业去魅,而是在描述一个已经发生的转向。行业没有失去野心,只是从开荒阶段,走进了工业化阶段。

为什么 benchmark 还重要,却没法单独解释全局

访谈里有个判断我很认同:Gemini、OpenAI、Anthropic 这些头部玩家的公开能力差距,已经没有外界想的那么大了。榜单当然还要看,分数也不是没意义,但很多时候它更像局部信号,不再是最后答案。

原因不复杂。今天顶级模型在推理、写代码、调用工具这些方向上,都已经跨过了“能不能做”的门槛。接下来用户真正感受到的差异,更多出在体验层:谁更稳定,谁在某类任务上更顺手,谁能把一条工作链路打磨得更完整。

这也是为什么现在很难只靠一张榜单就判断输赢。Claude 在 tool use 和 agent coding 上有自己的优势,OpenAI 在产品速度和生态整合上持续推进,Gemini 背后又站着 Google 的基础设施与产品入口。分数差异还在,但它们已经不足以把整场竞争讲明白。

真正难的地方,慢慢从“做出能力”变成“定义问题”

如果说上一阶段的核心难题是把模型做强,那这一阶段更麻烦的事,是先想清楚你到底要它变强成什么样。

这听起来像一句空话,实际一点都不空。模型系统越来越复杂之后,很多差异不再是“多堆一点算力”就能解释的。你得决定什么行为值得优化,什么结果算好,哪些任务要提前布局数据和评测,哪些方向值得在组织内部拿到更高优先级。

这类问题天然就更像产品问题,也更像组织问题。因为它不只考验研究能力,还考验团队有没有办法把方向、数据、训练、评估、上线体验串成一条线。很多外界以为是技术选择的差异,往下深挖,会发现其实是优先级选择、协作效率和工程纪律的差异。

也因为这样,“聪明”这件事没有消失,但它不再是最稀缺的解释。真正稀缺的,是一群人能不能在反馈很慢、系统很脏、变量很多的环境里,把事情持续做对。

OpenClaw 为什么会火

访谈里谈 OpenClaw 的那段,其实把今天 AI 产品层的一个现实说得很透。OpenClaw 之所以引发关注,不是因为它突然证明了一个从没人见过的新原理,而是因为它把一组本来已经接近可行的能力,第一次用足够直观的方式摆到了公众面前。

很多公司内部大概率早就有人做过类似实验,只是没有认真打磨,也没有把它包装成一个足够能被外部感知的产品。OpenClaw 真正厉害的地方,不在“发明”,而在“呈现”。它让大家看见,多模型、多工具、长链路任务的 agent 体验,已经不是遥远概念,而是一个轮廓清楚、虽然还粗糙但确实能工作的东西。

这也是它的价值所在。它带来的更像一次认知校准,而不是一次技术突变。

为什么产品公司很容易跑进模型公司的阴影里

问题也恰恰出在这里。只要底层模型能力和成本结构,主要还掌握在头部实验室手里,很多应用层产品就会天然活在阴影里。

它们当然可以先跑,先拿到用户,先占住入口,甚至先定义一段新的交互习惯。但只要模型公司自己往下走一步,这种关系就会立刻变得紧张。原来是合作伙伴,下一步就可能变成直接竞争者。

Cursor、Manus、OpenClaw 这一类项目,其实都要面对同一个问题:如果头部模型厂商半年后把类似能力做进自家体系,你手里还剩下什么?如果答案只是“我先做了一个更好用的壳”,那护城河通常不够深。

所以 AI 创业最难的部分,常常不是先做出 demo,而是尽快长出不容易被上游吞掉的东西。可能是用户心智,可能是工作流绑定,可能是数据回流,也可能是更深的场景整合。没有这些,产品层的繁荣很容易只是一段窗口期。

Anthropic、Google 和 AI safety 那条线,也可以看得更现实一点

访谈里关于 Anthropic 文化和 AI safety 的讨论,也有一个我觉得很重要的地方:它没有停在抽象立场上,而是一直往现实约束里落。

道理很简单。一家公司就算真的更在意安全,也很难靠“我先慢一点”这件事,单方面改变整个行业的推进速度。你停,别人不一定停;你收缩,别人可能直接加速。于是很多理想化表述,最后都得回到组织、市场、国家竞争和资本压力的现实条件里。

这不代表安全不重要。恰恰相反,它说明如果安全想变成真正有效的约束,就不能只停在宣言层。它得进入机制,进入协作,进入行业共同承受的成本结构。不然讲得再漂亮,也很难变成可执行的东西。

把整场访谈压成一个更清楚的结构

如果要给这篇文章重新搭骨架,我觉得可以压成下面四层:

按这个结构再回看原访谈,很多看起来分散的点就能重新串起来。它聊的不是几家公司谁赢谁输那么简单,而是在说:当模型能力逐渐趋同后,竞争的重心会往哪里迁移。

我为什么觉得这期内容值得写

我最认同的,并不是访谈里某个单点结论,而是它处理这个行业的方式。它没有继续神话模型公司,也没有把 AI 创业讲成纯粹的浪漫故事,而是把很多热闹叙事往下拽了一层,拽回组织、流程、执行、产品和现实约束。

这种去魅很重要。因为今天外部讨论 AI,仍然很容易被“谁最聪明”“谁最领先”“谁又放了一个大招”带着跑。可真正在一线决定结果的,往往是一套不那么性感的东西:优先级怎么定,团队怎么协同,评测怎么做,产品怎么磨,错误怎么被修回来。

从这个角度看,“英雄主义结束了”并不悲观。它只是提醒我们,大模型竞争已经越来越像一场长期工业竞赛。

这篇我先重写到这里。比起把所有材料都摊开,我更想先把主线讲清楚。这样读者读完,至少会记住一个判断:今天这场仗,单点天才当然还重要,但真正决定胜负的,越来越是一整套集体系统能不能稳定运转。

目录 最新
← 左侧翻上一屏 · 右侧翻下一屏 · 中间唤出菜单