20 年前 CUDA 诞生的时候,没人觉得显卡能干 AI 的活。20 年后的 GTC 2026,黄仁勋站在台上说:推理的拐点到了。
他说的"拐点"是什么意思?AI 模型从"查字典"进化到了"动脑子"。过去你问模型一个问题,它在数据库里翻翻给你答案。现在 o1、o3 这类推理模型上线之后,每一次生成回答的过程都是一次真正的推理——模型要反思、规划、调用工具,然后才给出结果。
直接后果:过去两年,全球算力需求翻了 100 万倍。
黄仁勋原话:
"AI 现在必须通过'思考'来推理,通过'行动'来生成结果。每一次生成代币的过程本质上都是一次推理。计算成本的降低将直接驱动'代币经济'的爆发。"
好,我们一块一块拆。
Vera Rubin:6 块芯片拼出来的野兽
Blackwell 去年刚发布还没焐热,Vera Rubin 就来了。这东西不是传统意义上的"显卡升级",它是 NVIDIA 把 6 个芯片焊死在一起的产物——全栈垂直整合到了令人发指的程度。
为什么要这么做?因为大规模混合专家模型(MoE)的两个死穴——延迟和带宽——靠单一组件已经解决不了了。
6 块芯片分别负责什么:
- Vera CPU:88 个自定义 Olympus 核心,Armv9.2 指令集。数据中心唯一支持 LPDDR5 的处理器。主要任务不是算,是"调度"——编排 Agent 工作流,跑高单线程逻辑。
- Rubin GPU:第三代 Transformer 引擎,硬件级自适应压缩,NVFP4 精度下 50 Petaflops 推理算力。对比 Blackwell 的 20 Petaflops(FP4),2.5 倍。
- NVLink 6 交换机:单 GPU 带宽 3.6TB/s,72 卡机架总带宽 260TB/s(Blackwell 是 130TB/s)。大模型推理的通信瓶颈基本堵死了。
- ConnectX-9 SuperNIC:ASTRA 架构,给大规模扩展提供系统级信任与隔离。
- BlueField-4 DPU:AI 原生存储核心,多租户环境的硬件级隔离。
- Spectrum-6 以太网交换机:百万 GPU 规模的 AI 织网,支持光电共封装(CPO)。
核心数据拉出来看一眼:
指标
Blackwell
Vera Rubin
变化
推理算力
20 PF (FP4)
50 PF (NVFP4)
2.5x
全对全互联带宽
130 TB/s
260 TB/s
2x
每兆瓦吞吐量
基准
35x 提升
—
内存
HBM3e
LPDDR5 (CPU)
首款
精度
FP4
NVFP4
推理专用
能效比 35 倍提升是个很夸张的数字。把算力翻上去不难,把每瓦性能拉到 35 倍才是工程上的硬活。
代币经济学:数据中心变身"AI 工厂"
NVIDIA 的新叙事:数据中心不存数据了,它生产"代币(Tokens)"。
代币就是 AI 的产出物——每生成一段文字、一张图、一个决策,都是在消耗和产出代币。黄仁勋把它当成了一种大宗商品来定价。
为了降低推理成本,NVIDIA 引入了 Dynamo 推理操作系统 + 分步推理(Disaggregated Inference)。核心思路是把推理过程拆开,让不同硬件干最擅长的活:
- 预填充 + 注意力机制:需要吃大量显存做 KV Cache,交给 Vera Rubin GPU。
- 代币生成:交给 Gro 芯片(LPU)。Gro 的 SRAM 架构有个独特优势——计算确定性。静态编译,零动态调度开销,代币吐出速度拉满。
分级定价也出来了:
层级
价格
场景
免费层
$0
基础应用,重吞吐,不管延迟
主流层
$3-6/百万代币
日常工作流
专家层
最高 $150/百万代币
深度推理、长上下文、极速交互
$150 和 $3 差了 50 倍——这就是"思考深度"的价格。简单查询和深度推理,底层消耗的算力根本不是一个量级。
OpenClaw:AI 智能体的 Linux
Peter Steinberger 搞出来的 OpenClaw 项目,现在是人类历史上增长最快的开源项目之一。它在 AI 智能体领域的位置,类似 Linux 在云计算时代的角色。
但企业用 AI 智能体有三个绕不开的问题:
- 它该看什么?(Access) → 智能体不能随便翻财务和供应链数据
- 它该跑什么代码?(Execute) → 沙箱外执行必须受控
- 它该跟谁说话?(Communicate) → 对外通信必须审计
NVIDIA 的 NemoClaw 栈就是冲着这三个问题来的。它内嵌了 OpenShell 运行时沙箱、策略引擎和隐私路由,确保智能体在企业内网合规运行。
这个架构思路很清晰:想让 AI 智能体上生产,光有能力不够,得套上缰绳。
Nemotron 联盟和主权 AI
NVIDIA 联合 Mistral、Perplexity、LangChain、Black Forest Labs 组成了 Nemotron 联盟。目标是持续优化 Nemotron 4 等开源推理模型,让每个组织甚至国家都能基于这些模型做垂直领域的二次开发——这就是"主权 AI"。
垂直领域上,NVIDIA 铺了一整条线:
- Alpaymayo:自动驾驶推理模型,能思考和规划
- Bioneo:数字生物学、蛋白质结构、药物设计
- Groot:通用机器人基础模型
- Cosmos:物理世界的环境理解和生成
- Earth 2:AI 驱动的全球气候预报
这里面 Cosmos 和 Groot 特别值得关注——前者让 AI 理解物理世界的规则,后者让机器人基于这些规则行动。两个拼起来,就是具身智能的基底。
物理 AI:用计算填补数据缺口
训练一个会走路的机器人,最大的难题不是算法,是数据。现实世界的交互数据极度稀缺——你不可能让机器人在真实环境里摔一百万次来学走路。
NVIDIA 的解法:在虚拟世界里摔。
Newton 物理引擎 + Isaac Lab 提供了大规模强化学习环境。GTC 现场演示的 Olaf 机器人,就是在模拟器里学会了理解重力、碰撞这些物理常数,再迁移到真实环境。
产业侧的动作也很多:
- DSX 平台:AI 工厂的数字孪生蓝图。动工之前,先在虚拟空间里把电力、散热、网络拓扑全跑一遍。
- Disney、Caterpillar 已经进入深度合作。
- Aerial AI-RAN:和 T-Mobile 合作,把基站改造成有推理能力的"机器人无线电塔"。
- Robo-taxi 平台:比亚迪、现代、日产、吉利四家车企已加入。
路线图:Blackwell → Vera Rubin → Feynman
NVIDIA 维持年度更新节奏:
2025 Blackwell → 把生成式 AI 推向主流
2026 Vera Rubin → Agent AI + 推理性能。还有个 Vera Rubin Space‑1 的构想——把 AI 数据中心送上太空轨道,应对极端辐射环境。
未来 Feynman → 下一代架构,几个关键组件已经曝光:
- Rosa CPU(以 Rosalind Franklin 命名),专门优化代币移动效率
- LP40 LPU,极致低延迟推理加速器
- BlueField-5 & CX10,互联层再跳一级
- Kyber 互联技术,同时支持铜缆直连和共封装光学(CPO)
太空数据中心和地面 AI 工厂两条线并行推进,这个布局说明 NVIDIA 已经在想 10 年后的算力基础设施长什么样了。
写在最后
NVIDIA 的策略用一句话概括:底层垂直整合,上层水平开放。
从芯片到互联到推理引擎到模型到智能体框架,整条栈自己做。同时通过开源生态(OpenClaw、Nemotron)让所有人都能用。这和苹果的思路有点像,但 NVIDIA 开放得更彻底。
未来十年,一家企业——甚至一个国家——的竞争力,可能真的要用每秒能产多少代币来衡量。