2026-04-27 · AI
32
AI · 2026-04-27

罗福莉谈 MiMo、1T 模型与 Agent 时代组织变革:真正的竞争已经不只是训练模型

视频来源:https://youtu.be/V9eI-t3TApE?si=8_GpGXH_MSAJGyhv

受访者:罗福莉(小米大模型负责人)

说明:本文基于用户提供的中文字幕转写整理,按模型、组织与研究范式重新组织,不是逐字稿。

如果只把这场访谈当成一篇 OpenClaw 体验分享,其实会错过更重要的部分。

罗福莉真正讲透的,远不止某个 Agent 框架有多强。她其实在讲另一件更大的事:Agent 一旦成了新范式,模型训练、后训练、组织结构、研究节奏、成本结构,整套方法都得重写。

过去三年,大模型行业已经习惯了一条比较清晰的路径:预训练、扩大参数、做 Chat、做 Reasoning、追 benchmark。可她这次讲出来的很多判断,都在指向另一件事。下一阶段比拼的重点,已经从“谁有更大的基座模型”挪到了“谁能让模型、Agent 框架、组织方式和推理基础设施一起迭代”。

说得更直白一点,未来领先者,靠的不只是训出更强模型,还得会把模型放进复杂任务系统里真正跑起来。

这篇文章想拆的,就是这条线。

一、她为什么会把 1T 以上模型看成 Agent 时代的入场券

先说一个最容易被误读的观点。

她提到,要把 Agent 做到接近 Claude Opus 4.6 那种水平,1T 级别的模型基本是入场券。这个说法很容易被理解成“大模型崇拜”,但她真正想表达的是,Agent 场景对模型底座的要求,已经和纯 Chat 场景不是一回事了。

Agent 要做的是长程任务、多轮任务、跨工具任务,还要在复杂上下文里维持稳定。这种场景会同时放大三个要求:

  1. 长上下文建模能力。
  2. 在复杂框架下的稳定性。
  3. 对代码、任务、环境反馈的泛化能力。

而这三个东西,靠 prompt 补不回来,最终还是得靠一个足够强的基座。

她的判断很清楚,Code 是一个泛化性极强的场景。你把 Code 做好,收获不只是写代码更强,在训练过程中,长上下文、任务分解、环境交互、长程依赖这些关键能力也会一起被练出来。正因为这样,她才会觉得,能在 Code 和 Agent 场景上达到顶级水平的基座,参数量至少得上一个更大的台阶。

说到底,这不是为了炫参数,是为了给后面所有 Agent 化能力留一个足够高的天花板。

二、MiMo V2 为什么从一开始就强烈押注 long context efficiency

她对 MiMo V2 的解释很有意思。

最开始设计这代结构时,并没有预判到后面会发生 OpenClaw 式的 Agent 冲击,但她们已经很明确地押了一个点:long context 一定很重要,而且它必须足够高效。

所以你会看到整个 V2 系列的一些关键技术选择,都是围绕这个判断展开的:

这里面最关键的,不在某个术语本身,在那套方法论。她们没先想“我要做一个多厉害的 benchmark 模型”,先问的是,“如果下一阶段任务越来越长、越来越复杂,这个结构还跑不跑得动,推理成本还扛不扛得住?”

这也解释了为什么她会反复强调成本和速度。Agent 真正进入生产后,模型能力当然重要,但便不便宜、够不够快、能不能长期跑,往往先决定它能不能普及。

所以 MiMo 这代模型的很多选择,看上去像工程优化,背后其实是在给 Agent 时代提前铺路。

三、MTP、Hybrid Attention 这些技术点,服务的其实是 Agent 时代的成本结构

她讲 MTP 那段,其实很能代表现在顶级模型团队的思考方式。

在很多外部讨论里,大家会把模型结构创新理解成某种优雅设计,仿佛重点是 paper 漂不漂亮。但她更在乎的,是这种结构在真实推理阶段到底有没有利用剩余算力、有没有压低成本、有没有拉高速度。

MTP 对她们来说,首先是个非常现实的问题,不是什么学术姿态:当模型结构本身留下了大量计算富余,你能不能把这些富余吃满,换来更高的 token 吞吐和更低的单 token 成本。

这件事放到 Agent 时代就更关键了。因为 Agent 的任务会越来越长、越来越频繁、越来越多轮。你只要把整个系统拉到一周、一月、一季去看,就会发现推理成本根本不是边缘问题,它就是决定这个产品能不能大规模使用的主变量。

所以她们做这些结构,不只是为了更聪明,也是为了把“聪明”压到一个可支付的价格里。

四、真正的变化,不在 Chat 到 Reasoning,而在 Chat 到 Agent

她对过去几年技术演进的分法,我觉得值得记一下。

在她看来:

她为什么会觉得很多过去一年号称做 Agent 的东西,其实还不算真正的 Agent?原因很简单。那些系统虽然有更复杂一点的 prompt,也带一点环境反馈,但骨子里还是在一个很局限、很专用的 benchmark 结构里工作。

这种东西不具备工业级可用性。你真把它们塞进 Claude Code 或 OpenClaw 这类复杂框架里,很多模型会立刻露底。

所以她把现在这个阶段看得很清楚:真正要解决的问题,是怎么在复杂 Agent 框架里,让模型在长程任务、多轮交互、环境反馈、技能沉淀、跨 session 记忆这些维度上都稳定表现。

这已经不是“多做点 tool use 数据”就能糊过去的问题了。它要求模型训练范式、RL infra、评估体系、组织方式一起变化。

五、她对 RL scaling 的理解,已经从“模型推理引擎优化”转到了“复杂系统训练”

这部分特别关键。

在 Code 和 Math 的 Reasoning 时代,RL 更像是在优化模型本体的推理过程。你关心 rollout,关心思考轨迹,关心怎么在一套相对清晰的验证目标下让模型变强。

到了 Agent 时代,问题一下复杂了很多。因为你训练的,已经不只是模型本体,还有模型和框架共同作用后的行为。

她的说法很准确,RL Infra 的中心开始从“模型推理引擎”转向“以 Agent 为核心的系统”。这里的变量暴增了:

这会带来一个组织要求上的变化。做 RL Infra 的人,不能只是传统意义上的稳定系统工程师,还得能容忍模糊性、异构资源和系统行为不完全可解释这件事。

换句话说,Agent 时代的 RL,已经不是一个单点算法问题,它更像是一个复杂系统训练问题。

六、她对组织的判断,其实和她对 Agent 框架的判断是一套逻辑

访谈后半段最有价值的部分,我觉得是她谈组织。

很多人会觉得这只是管理学话题,但它和 Agent 其实是连在一起的。

她强调几件事:

这套逻辑为什么有力量?因为它本质上跟她推崇的 Agent 框架设计是同一个哲学。

她不喜欢把人固定成单一角色,正如她不喜欢把模型固定成只能在单一场景里发力。她强调上下文流动、角色协作、边界松动、持续进化,这和她看 OpenClaw、看 Multi-Agent、看 Skills 的方式,其实是一套统一的世界观。

所以她才会反复提群体智慧。

在她这里,群体智慧不是一句空话,它就是一个真正能加速创新的结构条件。春节期间整个团队在群里躁动、互相分享、互相启发、共同修改框架,本质上就是一次现实世界里的 human swarm。

她后来在团队组织上继续坚持平权和流动性,也是在给这种群体智能留空间。

七、为什么她会说“环境比经验更重要”

这一句非常值得记。

她说,这些能力其实一两个月、慢一点三四个月就能快速习得,所以环境比经验更重要。

这句话放在传统大公司语境里可能很冒犯,因为它几乎是在否定很多资历叙事。但如果把它放回 Agent 时代,意思就很清楚了:当知识和执行能力被模型快速放大时,真正决定人成长速度的,往往是现在身处什么样的高密度环境。

一个对新范式开放、能快速试错、能不断被高标准任务拉扯的环境,会让很多原本需要几年才能长出来的能力,在几个月内被压缩式激发。

这也是为什么她现在反而很重视本科生,甚至大二大三的人。基础当然重要,只是他们没被旧范式污染太深,更容易相信新东西、尝试新东西,也更敢把自己的想法交给 Agent 去验证。

你会发现,她对人的判断方式也在 Agent 化。她更看重 checkpoint 的上限,不太迷信某种已经被旧监督方式固定住的当前状态。

八、她对未来两年的判断,重点在“生产力先被改写”

她后面反复讲,自己并不执着于 AGI 的精确定义。这个态度我挺认同。

很多时候,AGI 这个词太像一个神学终点,反而会遮住真正正在发生的事情。她更关心的是,工作模式什么时候开始被大规模改写,生活模式什么时候开始继续被改写,Agent 什么时候开始真正自进化,模型什么时候开始自己参与训练更强模型。

从这个角度看,她谈的不是抽象终局,更像是一组非常具体的前兆:

这些东西一旦一起发生,生产力系统就已经被改写了。到那时,叫不叫它 AGI,反而没那么重要。

结尾

我看这场访谈最大的感受是,罗福莉已经不再把“训练一个好模型”当成目标本身了。

她现在更像是在想:

所以真正的变化,不在某个 benchmark 高了几分,也不在某个模型又多会了几个任务。

真正的变化在于,大模型竞争正在从“训练更强的大脑”,转向“训练更强的大脑,再把它放进一个能持续运行、能低成本扩张、能自我进化的复杂系统”。

如果这个判断成立,那接下来最有价值的公司,未必是单点模型最强的公司,更可能是最早把模型、框架、组织和基础设施四件事一起想明白的公司。

从这个角度看,这场访谈真正让人兴奋的地方,不在它回答了多少问题,而在它把问题重新定义了一遍。

目录 最新
← 左侧翻上一屏 · 右侧翻下一屏 · 中间唤出菜单