2026-05-14 · AI
32
AI · 2026-05-14

Token 不是空气,是账单:硅谷这场 Token 军备竞赛,已经开始改写 AI 创业的成本结构

过去一年,大家聊 AI 竞争,最爱聊的是模型能力:谁更强,谁更会推理,谁在 coding 上更猛。但《硅谷101》这期《Token经济学:AI时代的新货币战争》把镜头往下压了一层,讨论的不是“谁更聪明”,而是“谁在为聪明买单”。这一下就把问题拉回现实了。

因为今天的 AI 行业,尤其是 agent 这一波,已经越来越不像传统 SaaS。以前软件卖出去之后,边际成本会越摊越薄;用户越多,利润空间通常越漂亮。可现在不是这样。用户每多问一句、agent 每多跑一轮、工具每多调一次、上下文每多喂一遍,账单就会继续往上跳。Token 不再只是一个技术指标,它已经变成了现金流问题、预算问题,甚至是公司组织方式的问题。

这期视频最有价值的地方,不是罗列了一堆价格表,而是把一个很多人隐约感觉到、但还没彻底说透的变化讲明白了:AI 时代的竞争,正在从“拼模型”迅速滑向“拼消耗结构”。谁能以更低的 token 成本完成更像样的结果,谁就更有机会活下去。

从“烧 token”变成炫耀指标开始,这件事就不只是成本了

视频开头提到一个很抓人的词:Token Maxxing。意思很简单,就是把 token 用量拉到极限,甚至把“我今天烧了多少 token、同时跑了多少 agent、吞吐有多高”变成一种新的攀比方式。

这听起来有点荒诞,但其实非常硅谷。因为任何新技术浪潮刚起来的时候,都会先出现一种近乎宗教化的投入姿态:先别管值不值,先卷进去再说。谁用得多,谁看起来就更相信未来;谁舍得烧钱,谁就更像站在时代正确的一边。

Meta 内部那个被曝光的 Claudianomics 排行榜就是一个非常典型的信号。8.5 万名员工的 AI 使用数据被集中统计,甚至能拉出 token 消耗最高的前 250 名“超级用户”。排行榜月使用量冲到 60 万亿 token,这个数字一出来,大家第一反应不是“太夸张了”,而是“这是不是新的组织 KPI 了”。

我觉得这件事真正值得警惕的地方,不是账单多大,而是它暴露出一个管理层心态:在很多公司眼里,AI 原生的第一阶段已经不再是“把流程改好”,而是“先确保所有人都在大规模使用”。至于这些 token 到底换回了什么结果,反而往后排了。

这场争论的核心,不是该不该多用,而是该不该把用量当成果

视频里其实讲出了两派非常典型的立场。

一派是激进拥抱型。逻辑很直白:如果不尽可能多地使用 AI,公司就会被淘汰。哪怕今天的激励制度很粗糙、排行榜设计也未必科学,但先把使用密度拉起来总比站着不动强。Meta、Uber 这类大公司,某种程度上都在往这个方向推。

另一派则在提醒:别把错误指标当进步。你可以一天到晚刷 token,但这不等于你真的交付了更多价值。HubSpot 那句“比起 token maxxing,更该看 outcome maxxing”,其实点得很准。问题从来不是“用了多少”,而是“这些消耗有没有换来更好的结果、更快的交付、更低的总成本”。

我更认同后者。因为 token 用量本身是个特别容易误导组织的指标。它太容易量化,太容易排行,也太容易被误解成努力程度。可 AI 系统不像健身房打卡,不是你练得越狠就一定越有效。很多时候,token 烧得飞快,可能恰好说明系统很绕、路由很差、模型选型不对,或者上下文喂得过于粗暴。

如果一个团队把“烧得多”当成进步,最后很容易出现一种滑稽的局面:所有人都看上去更 AI-native 了,财务报表却越来越难看,真正的单位产出并没有同步提升。

AI 创业的成本结构,已经和传统 SaaS 不是一回事了

这期视频最扎实的部分,在我看来不是情绪性的争论,而是它把 token 这件事和商业结构绑到了一起。

传统 SaaS 的一个核心吸引力,是边际成本足够低。产品一旦做出来,后面新增一个用户的成本通常不会线性增加。所以只要增长起来,利润模型会越来越顺。

但 agent 时代完全不同。每个用户动作背后,都有一笔持续滚动的推理账单。一次输入有 input token,命中缓存有 cached input token,模型返回有 output token;如果是 agent 工作流,中间还会多轮 loop、多次工具调用、多段日志回写、多次上下文再注入。成本不是“偶尔发生”,而是产品本体的一部分。

这件事非常要命,因为它把很多人以前默认成立的商业直觉给拆了。你功能做得更智能,未必意味着规模效应更强;相反,很可能意味着每次调用都更贵。你用户用得越深、留存越好、功能越重,成本线也一起抬上去了。

这就是为什么 token 正在变成 AI 创业公司最核心的弹药。甚至有基金开始直接给被投企业提供 token 额度,而不是只给现金。背后的逻辑并不复杂:很多 AI 创业项目拿到钱之后,第一件事就是去买 token。那不如直接把 token 当生产资料发下去。

说得再直一点,token 已经越来越像一种云时代的新型工业原料。不是空气,不是抽象概念,是账单,是产能,是你能不能继续跑下去的那口燃料。

Token 定价这件事,比“单价 × 数量”复杂得多

视频里对 token 账单结构的拆解,值得所有做 agent 的人反复看。

很多人对 token 成本的理解还停留在一个特别粗糙的阶段:我知道某个模型 input 每百万多少钱,output 每百万多少钱,然后乘一乘,大概就有数了。实际根本没这么简单。

最基本的一层,input、cached input、output 三种 token 的价格就不是一个量级。视频里提到,在很多对话场景下,三者价格大约可以拉到 1 : 0.1 : 6。这意味着你不是只要盯住输入规模就行,真正贵的往往是输出,以及围绕输出产生的反复推理。

更关键的是,强模型和弱模型之间还有一个反直觉悖论:贵模型未必总成本更高。

原因很好理解。一个强模型可能一次就做对,路径短,返工少,工具调用更准,人工介入也少;一个便宜模型如果反复试错、不断重跑、loop 过长、甚至频繁出错,最后烧掉的 token 可能更多。你表面上买的是更便宜的单价,实际上买回来的是更高的任务完成成本。

这也是 agent 场景和普通聊天场景差异最大的地方。聊天应用里,你还能相对线性地算一次调用多少钱;agent 里,成本取决于 loop 跑了几轮、每轮拉了多少上下文、工具输出有多长、日志有没有被反复塞回去。到了这一步,token 成本本身就成了系统设计问题,而不只是采购问题。

中国模型的机会,不只是“便宜”,而是便宜到足以改写路由策略

这期视频里另一个很重要的观察,是中国模型在全球开发者社区里开始承担一种非常务实的角色:不是最强,但足够强,而且便宜得离谱。

这里最关键的不是民族叙事,而是 economics。很多开发者并不是非要最顶尖的推理能力,他们要的是一套能把任务做完、能稳定跟工具配合、指令跟随好、响应速度够快、价格还压得住的模型。尤其在 agent 场景里,这种需求比“排行榜第一”真实得多。

如果一个中国模型在某类 coding 基准上已经接近顶级闭源模型,但价格只有后者的十几分之一,甚至几十分之一,那它就不仅仅是“便宜替代品”了,而会直接进入主路由。开发者不会跟账单过不去。只要效果差距没大到足以改变任务成败,路由器自然会把大量请求分过去。

这也是为什么我觉得“token 出海”这个命题不该只被理解成模型 API 出口,而应该理解成一种更深的供给能力:如果中国模型真的能长期稳定地提供更低单位成本的智能,那它影响的不是某几家创业公司,而是整个全球 agent 生态的成本曲线。

当然,这里面有补贴、云厂商自带基础设施优势、抢生态窗口期等多重因素,不是单靠技术魔法。但市场通常不先问你为什么便宜,市场先问的是:既然能用,为什么不用。

真正的新生意,不只是卖模型,而是替别人省 token

视频讲到后半段时,有个我很认同的判断:接下来会冒出来的一大批新公司,核心不是生成更多 token,而是帮别人少烧冤枉 token。

这背后其实是一个非常清晰的产业链转移。

当 token 变成主要成本项,围绕它就一定会出现新的基础设施:统一路由、智能选模、计量计费、缓存层、上下文压缩、loop 控制、结果裁剪、任务分级、预算治理。这些看起来不如模型发布会那么光鲜,但它们离真钱更近。

OpenRouter 之所以值钱,就是因为模型供给一旦分散,谁能把分散供给接成一个统一入口,谁就成了路由层的受益者。Metronome 之类做计费基础设施的公司也是同样逻辑。听起来只是“装电表”,可一旦行业真的开始按 token 来结算、对账、优化和控成本,装电表的人就不再是边缘角色,而是系统里不可缺的一层。

更进一步,真正高级的 token 套利也不是简单倒 API 差价,而是做智能路由。先判断任务复杂度,再决定该用贵模型还是便宜模型;能用便宜模型解决的绝不硬上旗舰模型;该截断上下文的时候就截断,该缓存的时候就缓存,该拆任务的时候就拆任务。说到底,谁更会花 token,谁就更接近 agent 时代的运营能力本身。

这场“货币战争”里,最稀缺的可能不是 token,而是 token efficiency

我觉得这期视频虽然标题叫“新货币战争”,但它真正要讲的不是货币,而是效率。

因为行业走到下一步,大家迟早会发现:问题不是你有没有 token,而是你是不是把 token 花在了值得的地方。很多企业现在一半左右的 AI 消耗,未必真的产生了对应价值。原因也很直接:agent 不像人,很多时候它不知道什么时候该停;它会一遍遍回读对话历史,一遍遍重扫文件,一遍遍把已经过期的上下文重新塞进去。信息像滚雪球一样越滚越大,任务价值却不一定同步增长。

这意味着,下一个关键竞争点可能不是“谁能拿到最多 token”,而是“谁能把每一份 token 用得更像一个成熟系统”。这里面既有模型选择问题,也有工程设计问题,还有产品边界问题。

很多团队今天最该做的,也许不是继续增加上下文窗口,不是再接十个工具,而是先把下面这些问题问清楚:

这类问题表面上看起来不性感,但它们才真正决定 AI 产品最后能不能成为一门生意,而不只是一个很贵的演示。

最后

《硅谷101》这期视频最好的地方,在于它没有把 token 讲成一个纯技术概念,也没有把它讲成一个孤立的定价问题。它讲的是更底层的东西:当 AI 从模型演示走向大规模生产,token 会像电费、带宽、算力配额一样,变成每家公司都绕不过去的基础约束。

在这个意义上,token 经济学并不是一个小话题。它其实是在重写整个 AI 产业的成本语言。

以后判断一家 AI 公司做得好不好,可能不只是看 demo 有多惊艳,也不只是看模型榜单排第几。更现实的问题是:它能不能稳定地产出结果,能不能把 token 花在刀刃上,能不能在规模起来之后不被账单反噬。

这才是这场战争真正残酷的地方。

目录 最新
← 左侧翻上一屏 · 右侧翻下一屏 · 中间唤出菜单