罗福莉谈 MiMo、1T 模型与 Agent 时代组织变革：真正的竞争已经不只是训练模型

视频来源：https://youtu.be/V9eI-t3TApE?si=8_GpGXH_MSAJGyhv

受访者：罗福莉（小米大模型负责人）

说明：本文基于用户提供的中文字幕转写整理，按模型、组织与研究范式重新组织，不是逐字稿。

如果只把这场访谈当成一篇 OpenClaw 体验分享，其实会错过更重要的部分。

罗福莉真正讲透的，远不止某个 Agent 框架有多强。她其实在讲另一件更大的事：Agent 一旦成了新范式，模型训练、后训练、组织结构、研究节奏、成本结构，整套方法都得重写。

过去三年，大模型行业已经习惯了一条比较清晰的路径：预训练、扩大参数、做 Chat、做 Reasoning、追 benchmark。可她这次讲出来的很多判断，都在指向另一件事。下一阶段比拼的重点，已经从“谁有更大的基座模型”挪到了“谁能让模型、Agent 框架、组织方式和推理基础设施一起迭代”。

说得更直白一点，未来领先者，靠的不只是训出更强模型，还得会把模型放进复杂任务系统里真正跑起来。

这篇文章想拆的，就是这条线。

一、她为什么会把 1T 以上模型看成 Agent 时代的入场券

先说一个最容易被误读的观点。

她提到，要把 Agent 做到接近 Claude Opus 4.6 那种水平，1T 级别的模型基本是入场券。这个说法很容易被理解成“大模型崇拜”，但她真正想表达的是，Agent 场景对模型底座的要求，已经和纯 Chat 场景不是一回事了。

Agent 要做的是长程任务、多轮任务、跨工具任务，还要在复杂上下文里维持稳定。这种场景会同时放大三个要求：

长上下文建模能力。
在复杂框架下的稳定性。
对代码、任务、环境反馈的泛化能力。

而这三个东西，靠 prompt 补不回来，最终还是得靠一个足够强的基座。

她的判断很清楚，Code 是一个泛化性极强的场景。你把 Code 做好，收获不只是写代码更强，在训练过程中，长上下文、任务分解、环境交互、长程依赖这些关键能力也会一起被练出来。正因为这样，她才会觉得，能在 Code 和 Agent 场景上达到顶级水平的基座，参数量至少得上一个更大的台阶。

说到底，这不是为了炫参数，是为了给后面所有 Agent 化能力留一个足够高的天花板。

二、MiMo V2 为什么从一开始就强烈押注 long context efficiency

她对 MiMo V2 的解释很有意思。

最开始设计这代结构时，并没有预判到后面会发生 OpenClaw 式的 Agent 冲击，但她们已经很明确地押了一个点：long context 一定很重要，而且它必须足够高效。

所以你会看到整个 V2 系列的一些关键技术选择，都是围绕这个判断展开的：

Hybrid Attention
更高比例的 Sliding Window Attention
MTP（Multi-token Prediction）
在推理效率和 KV Cache 上做极致优化

这里面最关键的，不在某个术语本身，在那套方法论。她们没先想“我要做一个多厉害的 benchmark 模型”，先问的是，“如果下一阶段任务越来越长、越来越复杂，这个结构还跑不跑得动，推理成本还扛不扛得住？”

这也解释了为什么她会反复强调成本和速度。Agent 真正进入生产后，模型能力当然重要，但便不便宜、够不够快、能不能长期跑，往往先决定它能不能普及。

所以 MiMo 这代模型的很多选择，看上去像工程优化，背后其实是在给 Agent 时代提前铺路。

三、MTP、Hybrid Attention 这些技术点，服务的其实是 Agent 时代的成本结构

她讲 MTP 那段，其实很能代表现在顶级模型团队的思考方式。

在很多外部讨论里，大家会把模型结构创新理解成某种优雅设计，仿佛重点是 paper 漂不漂亮。但她更在乎的，是这种结构在真实推理阶段到底有没有利用剩余算力、有没有压低成本、有没有拉高速度。

MTP 对她们来说，首先是个非常现实的问题，不是什么学术姿态：当模型结构本身留下了大量计算富余，你能不能把这些富余吃满，换来更高的 token 吞吐和更低的单 token 成本。

这件事放到 Agent 时代就更关键了。因为 Agent 的任务会越来越长、越来越频繁、越来越多轮。你只要把整个系统拉到一周、一月、一季去看，就会发现推理成本根本不是边缘问题，它就是决定这个产品能不能大规模使用的主变量。

所以她们做这些结构，不只是为了更聪明，也是为了把“聪明”压到一个可支付的价格里。

四、真正的变化，不在 Chat 到 Reasoning，而在 Chat 到 Agent

她对过去几年技术演进的分法，我觉得值得记一下。

在她看来：

ChatGPT 做的事，是第一次把短上下文里的预训练智能通过对话形式完整释放出来。
之后几年，开源模型一边追平预训练，一边在结构上做新探索，比如 MoE、MLA。
o1、R1 的意义，是把 Reasoning 从数学和代码这种强验证场景里真正跑通。
再往后真正发生范式变化的地方，在 Agent。

她为什么会觉得很多过去一年号称做 Agent 的东西，其实还不算真正的 Agent？原因很简单。那些系统虽然有更复杂一点的 prompt，也带一点环境反馈，但骨子里还是在一个很局限、很专用的 benchmark 结构里工作。

这种东西不具备工业级可用性。你真把它们塞进 Claude Code 或 OpenClaw 这类复杂框架里，很多模型会立刻露底。

所以她把现在这个阶段看得很清楚：真正要解决的问题，是怎么在复杂 Agent 框架里，让模型在长程任务、多轮交互、环境反馈、技能沉淀、跨 session 记忆这些维度上都稳定表现。

这已经不是“多做点 tool use 数据”就能糊过去的问题了。它要求模型训练范式、RL infra、评估体系、组织方式一起变化。

五、她对 RL scaling 的理解，已经从“模型推理引擎优化”转到了“复杂系统训练”

这部分特别关键。

在 Code 和 Math 的 Reasoning 时代，RL 更像是在优化模型本体的推理过程。你关心 rollout，关心思考轨迹，关心怎么在一套相对清晰的验证目标下让模型变强。

到了 Agent 时代，问题一下复杂了很多。因为你训练的，已经不只是模型本体，还有模型和框架共同作用后的行为。

她的说法很准确，RL Infra 的中心开始从“模型推理引擎”转向“以 Agent 为核心的系统”。这里的变量暴增了：

模型会和框架交互。
框架会和环境交互。
CPU、GPU、存储、通信都要一起调度。
rollout 到一半断掉，原因可能有十种。
很多错误不是 deterministic 的。

这会带来一个组织要求上的变化。做 RL Infra 的人，不能只是传统意义上的稳定系统工程师，还得能容忍模糊性、异构资源和系统行为不完全可解释这件事。

换句话说，Agent 时代的 RL，已经不是一个单点算法问题，它更像是一个复杂系统训练问题。

六、她对组织的判断，其实和她对 Agent 框架的判断是一套逻辑

访谈后半段最有价值的部分，我觉得是她谈组织。

很多人会觉得这只是管理学话题，但它和 Agent 其实是连在一起的。

她强调几件事：

没有严格按组划分预训练、后训练。
很多人会自然在不同环节之间流动。
经验不如环境重要。
不要过早用组织结构把人的创造力锁死。
要靠热爱、环境、平权和高密度交流驱动人，而不是靠精细 KPI 和层级。

这套逻辑为什么有力量？因为它本质上跟她推崇的 Agent 框架设计是同一个哲学。

她不喜欢把人固定成单一角色，正如她不喜欢把模型固定成只能在单一场景里发力。她强调上下文流动、角色协作、边界松动、持续进化，这和她看 OpenClaw、看 Multi-Agent、看 Skills 的方式，其实是一套统一的世界观。

所以她才会反复提群体智慧。

在她这里，群体智慧不是一句空话，它就是一个真正能加速创新的结构条件。春节期间整个团队在群里躁动、互相分享、互相启发、共同修改框架，本质上就是一次现实世界里的 human swarm。

她后来在团队组织上继续坚持平权和流动性，也是在给这种群体智能留空间。

七、为什么她会说“环境比经验更重要”

这一句非常值得记。

她说，这些能力其实一两个月、慢一点三四个月就能快速习得，所以环境比经验更重要。

这句话放在传统大公司语境里可能很冒犯，因为它几乎是在否定很多资历叙事。但如果把它放回 Agent 时代，意思就很清楚了：当知识和执行能力被模型快速放大时，真正决定人成长速度的，往往是现在身处什么样的高密度环境。

一个对新范式开放、能快速试错、能不断被高标准任务拉扯的环境，会让很多原本需要几年才能长出来的能力，在几个月内被压缩式激发。

这也是为什么她现在反而很重视本科生，甚至大二大三的人。基础当然重要，只是他们没被旧范式污染太深，更容易相信新东西、尝试新东西，也更敢把自己的想法交给 Agent 去验证。

你会发现，她对人的判断方式也在 Agent 化。她更看重 checkpoint 的上限，不太迷信某种已经被旧监督方式固定住的当前状态。

八、她对未来两年的判断，重点在“生产力先被改写”

她后面反复讲，自己并不执着于 AGI 的精确定义。这个态度我挺认同。

很多时候，AGI 这个词太像一个神学终点，反而会遮住真正正在发生的事情。她更关心的是，工作模式什么时候开始被大规模改写，生活模式什么时候开始继续被改写，Agent 什么时候开始真正自进化，模型什么时候开始自己参与训练更强模型。

从这个角度看，她谈的不是抽象终局，更像是一组非常具体的前兆：

高价值任务开始被 Agent 介入。
代码、研究、团队管理等复杂工作流被重构。
Agent 框架和模型互相迭代。
端云协同、隐私本地化、多模型协同开始成熟。
推理需求会暴涨，芯片和成本问题会被彻底放大。

这些东西一旦一起发生，生产力系统就已经被改写了。到那时，叫不叫它 AGI，反而没那么重要。

结尾

我看这场访谈最大的感受是，罗福莉已经不再把“训练一个好模型”当成目标本身了。

她现在更像是在想：

怎么训练一个更适合 Agent 的模型。
怎么让 Agent 框架和模型互相进化。
怎么重新组织一支团队去适应这件事。
怎么在成本、算力、推理、基础设施上为这个新时代搭桥。

所以真正的变化，不在某个 benchmark 高了几分，也不在某个模型又多会了几个任务。

真正的变化在于，大模型竞争正在从“训练更强的大脑”，转向“训练更强的大脑，再把它放进一个能持续运行、能低成本扩张、能自我进化的复杂系统”。

如果这个判断成立，那接下来最有价值的公司，未必是单点模型最强的公司，更可能是最早把模型、框架、组织和基础设施四件事一起想明白的公司。

从这个角度看，这场访谈真正让人兴奋的地方，不在它回答了多少问题，而在它把问题重新定义了一遍。