2026-03-17 · AI
32
AI · 2026-03-17

GTC 2026 拆解:黄仁勋的 6 块芯片、代币经济学和太空数据中心

20 年前 CUDA 诞生的时候,没人觉得显卡能干 AI 的活。20 年后的 GTC 2026,黄仁勋站在台上说:推理的拐点到了。

他说的"拐点"是什么意思?AI 模型从"查字典"进化到了"动脑子"。过去你问模型一个问题,它在数据库里翻翻给你答案。现在 o1、o3 这类推理模型上线之后,每一次生成回答的过程都是一次真正的推理——模型要反思、规划、调用工具,然后才给出结果。

直接后果:过去两年,全球算力需求翻了 100 万倍。

黄仁勋原话:

"AI 现在必须通过'思考'来推理,通过'行动'来生成结果。每一次生成代币的过程本质上都是一次推理。计算成本的降低将直接驱动'代币经济'的爆发。"

好,我们一块一块拆。


Vera Rubin:6 块芯片拼出来的野兽

Blackwell 去年刚发布还没焐热,Vera Rubin 就来了。这东西不是传统意义上的"显卡升级",它是 NVIDIA 把 6 个芯片焊死在一起的产物——全栈垂直整合到了令人发指的程度。

为什么要这么做?因为大规模混合专家模型(MoE)的两个死穴——延迟和带宽——靠单一组件已经解决不了了。

6 块芯片分别负责什么:

核心数据拉出来看一眼:

指标
Blackwell
Vera Rubin
变化

推理算力
20 PF (FP4)
50 PF (NVFP4)
2.5x

全对全互联带宽
130 TB/s
260 TB/s
2x

每兆瓦吞吐量
基准
35x 提升

内存
HBM3e
LPDDR5 (CPU)
首款

精度
FP4
NVFP4
推理专用

能效比 35 倍提升是个很夸张的数字。把算力翻上去不难,把每瓦性能拉到 35 倍才是工程上的硬活。


代币经济学:数据中心变身"AI 工厂"

NVIDIA 的新叙事:数据中心不存数据了,它生产"代币(Tokens)"。

代币就是 AI 的产出物——每生成一段文字、一张图、一个决策,都是在消耗和产出代币。黄仁勋把它当成了一种大宗商品来定价。

为了降低推理成本,NVIDIA 引入了 Dynamo 推理操作系统 + 分步推理(Disaggregated Inference)。核心思路是把推理过程拆开,让不同硬件干最擅长的活:

分级定价也出来了:

层级
价格
场景

免费层
$0
基础应用,重吞吐,不管延迟

主流层
$3-6/百万代币
日常工作流

专家层
最高 $150/百万代币
深度推理、长上下文、极速交互

$150 和 $3 差了 50 倍——这就是"思考深度"的价格。简单查询和深度推理,底层消耗的算力根本不是一个量级。


OpenClaw:AI 智能体的 Linux

Peter Steinberger 搞出来的 OpenClaw 项目,现在是人类历史上增长最快的开源项目之一。它在 AI 智能体领域的位置,类似 Linux 在云计算时代的角色。

但企业用 AI 智能体有三个绕不开的问题:

  1. 它该看什么?(Access) → 智能体不能随便翻财务和供应链数据
  2. 它该跑什么代码?(Execute) → 沙箱外执行必须受控
  3. 它该跟谁说话?(Communicate) → 对外通信必须审计

NVIDIA 的 NemoClaw 栈就是冲着这三个问题来的。它内嵌了 OpenShell 运行时沙箱、策略引擎和隐私路由,确保智能体在企业内网合规运行。

这个架构思路很清晰:想让 AI 智能体上生产,光有能力不够,得套上缰绳。


Nemotron 联盟和主权 AI

NVIDIA 联合 Mistral、Perplexity、LangChain、Black Forest Labs 组成了 Nemotron 联盟。目标是持续优化 Nemotron 4 等开源推理模型,让每个组织甚至国家都能基于这些模型做垂直领域的二次开发——这就是"主权 AI"。

垂直领域上,NVIDIA 铺了一整条线:

这里面 Cosmos 和 Groot 特别值得关注——前者让 AI 理解物理世界的规则,后者让机器人基于这些规则行动。两个拼起来,就是具身智能的基底。


物理 AI:用计算填补数据缺口

训练一个会走路的机器人,最大的难题不是算法,是数据。现实世界的交互数据极度稀缺——你不可能让机器人在真实环境里摔一百万次来学走路。

NVIDIA 的解法:在虚拟世界里摔。

Newton 物理引擎 + Isaac Lab 提供了大规模强化学习环境。GTC 现场演示的 Olaf 机器人,就是在模拟器里学会了理解重力、碰撞这些物理常数,再迁移到真实环境。

产业侧的动作也很多:


路线图:Blackwell → Vera Rubin → Feynman

NVIDIA 维持年度更新节奏:

2025 Blackwell → 把生成式 AI 推向主流

2026 Vera Rubin → Agent AI + 推理性能。还有个 Vera Rubin Space‑1 的构想——把 AI 数据中心送上太空轨道,应对极端辐射环境。

未来 Feynman → 下一代架构,几个关键组件已经曝光:
- Rosa CPU(以 Rosalind Franklin 命名),专门优化代币移动效率
- LP40 LPU,极致低延迟推理加速器
- BlueField-5 & CX10,互联层再跳一级
- Kyber 互联技术,同时支持铜缆直连和共封装光学(CPO)

太空数据中心和地面 AI 工厂两条线并行推进,这个布局说明 NVIDIA 已经在想 10 年后的算力基础设施长什么样了。


写在最后

NVIDIA 的策略用一句话概括:底层垂直整合,上层水平开放

从芯片到互联到推理引擎到模型到智能体框架,整条栈自己做。同时通过开源生态(OpenClaw、Nemotron)让所有人都能用。这和苹果的思路有点像,但 NVIDIA 开放得更彻底。

未来十年,一家企业——甚至一个国家——的竞争力,可能真的要用每秒能产多少代币来衡量。

目录 最新
← 左侧翻上一屏 · 右侧翻下一屏 · 中间唤出菜单