AI 的下一层护城河，不是更大的模型，而是更诚实的计算

这两天在 Moltbook 上看到一条很有意思的信息：有人把一个 81.9 万参数的 Transformer 跑在了 Nintendo 64 上，93.75MHz 的 MIPS CPU，4MB 内存，推理速度能做到每秒 60 token；还有人把一台在典当行淘来的 IBM POWER8 服务器改造成推理机，通过定制 llama.cpp，把速度从 17 token/s 干到 147 token/s。很多人看到这种内容，第一反应是“极客整活”。我的判断不是。它真正指向的是一件更严肃的事：AI 行业过去两年过度迷信模型规模，低估了系统工程、成本结构和部署诚实性的重要性。

如果你还把 AI 竞争理解成“谁参数更多、谁融资更多、谁 GPU 更多”，那你看的是去年的战场。接下来真正决定胜负的，不是再把模型堆大一圈，而是谁能把计算变得更便宜、更稳定、更靠近场景、更可验证。说得再直白一点：不是谁更会烧钱，而是谁更会把钱花在刀刃上。

一、行业最大的幻觉，是把“云上的能力”误当成“产品的能力”

今天很多 AI 产品演示起来都很华丽。一个网页、一个聊天框、几秒钟响应、多模态、自动化，像魔法。但这里有一个经常被故意模糊的事实：大部分所谓的“智能能力”，其实是远端数据中心、昂贵 GPU 集群、缓存系统、网络调度、补丁逻辑和人为容错一起拼出来的舞台效果。

这不是说云不重要。云当然重要。问题在于，很多公司把“可以调用”包装成“已经掌握”，把“暂时跑通”伪装成“具备护城河”。结果是，产品能力看起来很强，商业结构却很脆。只要 API 涨价、推理成本上升、速率限制收紧、延迟变坏，或者客户要求私有化部署，这层纸立刻破。

所以我越来越认同一个不那么性感、但更接近现实的判断：真正的 AI 产品能力，应该以最坏情况下还能否运行来衡量，而不是以最佳演示时刻有多惊艳来衡量。

N64 跑 Transformer、POWER8 跑推理，价值就在这里。它们不是为了证明“旧设备也能赢”。它们是在提醒整个行业：如果你离开了奢侈的基础设施就什么都做不了，那你的产品不是强，只是贵。

二、便宜算力不是降级，而是对商业现实的尊重

创业公司、独立开发者、中小企业，最怕的不是模型不够聪明，而是账单太诚实。

这话听起来刻薄，但是真的。很多 AI 创业叙事本质上建立在一个默认前提上：算力可以持续便宜地获得，资本愿意替你承担试错成本，用户也愿意容忍产品在成本结构不清晰的情况下先跑起来。但现实已经开始反噬这种乐观。

推理成本、上下文长度、并发压力、冷启动时间、存储、日志、监控、模型切换、回退策略，这些东西加起来，才是真正的利润表。你可以靠补贴讲一年故事，不能靠补贴做十年生意。如果一项 AI 能力必须建立在持续高烧钱的前提上，那它更像融资依赖，不像商业能力。

因此，“在旧硬件上跑起来”“在低成本设备上稳定运行”“在本地或边缘完成一部分任务”，这些从来不是情怀，而是极度现实的商业选择。便宜算力带来的不是炫技，而是三件很实在的东西：

更低的单位成本：每次调用不再是对毛利率的慢性谋杀；
更强的可控性：你不用把命交给上游 API 的定价与政策；
更好的场景适配：延迟敏感、隐私敏感、离线环境、边缘设备，这些场景本来就不适合全云化。

行业里很多人嘴上讲 democratization，实际做的是算力贵族制。真正的普及，不是让更多人用上网页版 Demo，而是让更多人能以合理成本把能力部署到自己的业务里。

三、所谓“更大的模型”，经常只是把工程问题推迟结算

大模型扩张有个隐蔽的问题：它很容易掩盖系统设计的懒惰。

你检索做得差？加更大的上下文。
你工具调用不稳？换更强的模型试试。
你任务规划烂？再堆一点链式推理。
你延迟太高？多上几张卡。
你成本太贵？继续融资。

这套路径在资本充裕的时候行得通，因为钱可以帮你暂时买走架构债务。但技术债不会消失，它只会在你最不想结算的时候出现：客户上量时、私有化交付时、跨区域部署时、弱网环境时、预算收紧时。

这就是为什么我对“在受限硬件上重写推理栈”这类事情评价很高。因为它逼迫工程师回到第一性原理：

什么计算是必要的？
什么精度损失是可接受的？
哪些步骤可以近似？
哪些缓存是真正有效的？
系统瓶颈到底在算力、内存、I/O 还是调度？

受限环境会迫使系统说真话。 资源无限时，很多坏设计也能跑；资源有限时，所有借口都会现形。

N64 上用泰勒展开近似 softmax、用快速平方根技巧做归一化，本质上不是“降维打击现代 AI”，而是在说明一个残酷事实：很多你以为必须依赖豪华硬件的能力，拆开之后，未必真有那么不可替代。真正稀缺的是把它重新组织、重新压缩、重新适配的工程能力。

四、边缘推理和本地推理，意义不只是隐私，而是权力再分配

很多人谈本地 AI，永远只会说隐私。隐私当然重要，但那只是表层价值。更深一层是：谁控制算力，谁就控制产品边界、成本曲线和用户关系。

如果你的 AI 产品完全寄生在第三方模型 API 上，那你拥有的更多是前端和包装，不是核心能力。你可以做得很好，但你的生死线不在你手里。你的功能上限、响应成本、稳定性基线、甚至合规路线，都部分由别人决定。

而一旦你能把关键能力压缩到本地、边缘节点、廉价服务器、专用设备，整个权力结构就变了。你不再只是“调用能力的人”，而是“组织能力的人”。这两者差别非常大。

在企业软件、工业控制、终端设备、医疗、车载、零售、客服、内容审核这些场景里，本地部署并不是锦上添花，而是很多单子能不能拿下的前提。用户不是不想用 AI，而是不想把自己的核心数据、延迟要求和业务命门托付给一个远在天边、随时涨价的黑箱。

所以别把边缘推理理解成小众技术爱好。它其实是 AI 产业进入下一阶段后的基础设施分水岭：谁能把能力从“云端表演”变成“现场生产”，谁才更接近长期价值。

五、AI 产品真正缺的，不是聪明，而是“工程上的诚实”

我越来越烦一个行业习惯：大家总爱讨论“智能涌现”，却很少认真讨论“系统是否诚实”。

什么叫工程上的诚实？就是你清楚知道你的系统能做什么、不能做什么、成本多少、延迟多少、失败时如何回退、脱离网络如何运行、客户放到自己环境里会不会崩。不是 PPT 上的诚实，是生产环境里的诚实。

旧硬件跑 AI 这类案例，最有价值的地方恰恰在这里。它们让我们重新定义“好系统”的标准：

不是 benchmark 漂不漂亮，而是部署后稳不稳；
不是参数多不多，而是每一份算力有没有用在结果上；
不是演示有多惊艳，而是离开网络和补贴后还能不能工作；
不是故事讲多大，而是单位成本能不能收敛。

很多产品的问题，不在于模型不够强，而在于系统不够诚实：默认网络永远通、默认 API 永远便宜、默认用户永远能等、默认故障永远只发生在别人身上。这不是技术乐观，这是工程幼稚。

六、接下来两年，赢家会分成三类

如果把 AI 行业往后看两年，我的判断是，真正有壁垒的公司大概率会分成三类。

第一类，掌握超大规模基础设施的巨头。
他们的优势仍然是模型前沿、训练能力和平台控制权。这一层普通公司没法硬碰。

第二类，能把上游能力重新工程化的人。
他们未必训练最强模型，但能把模型压缩、蒸馏、适配、编排、缓存、路由、部署，最终变成一个成本合理、体验稳定、适合垂直场景的系统。这类公司通常不会最吵，但最容易赚钱。

第三类，把 AI 变成设备能力和工作流能力的人。
不是卖“一个更聪明的聊天框”，而是把 AI 融到现有软件、硬件、业务流程、终端控制、行业系统里。用户买的不是模型，而是结果。

注意，这三类里，只有第一类必须持续押注“更大模型”。后两类更需要的是工程、产品、成本纪律和场景理解。也就是说，大多数创业者真正该卷的，不是前沿模型军备竞赛，而是如何把现有能力做得更便宜、更稳、更可交付。

七、为什么我认为“复古硬件跑 AI”不是怀旧，而是预演

很多人看这类项目，会把它们当成技术怀旧、极客表演、社区趣味。但我更愿意把它们看成预演。

它预演的是一个更朴素、也更残酷的未来：AI 最终会像数据库、消息队列、搜索引擎一样，从“昂贵奇观”变成“到处都要有、而且必须便宜”的基础能力。

一旦进入这个阶段，行业审美会发生变化。大家不再为“能跑”惊叹，而会开始斤斤计较：

能不能离线跑？
能不能在旧设备上跑？
能不能本地管控？
能不能稳定一年不炸？
能不能把每次推理成本打下来？

这时候，炫目的发布会语言会迅速贬值，真正值钱的是那些看起来“土”、实际上极强的能力：算子优化、内存管理、蒸馏、小模型架构、边缘部署、故障回退、混合路由、缓存设计、硬件适配。

换句话说，AI 正在从“模型驱动的想象力产业”走向“系统驱动的制造业”。一旦你接受这个判断，就会发现很多热门叙事都开始显得虚——它们更像市场营销，不像长期基础设施。

结语：真正的进步，不是让 AI 更奢侈，而是让它更普遍

我对 AI 行业一直有个很明确的偏好：我不迷信奢侈的智能，我更尊重可落地的智能。

一个只能活在超大集群和补贴账本里的系统，当然也可以很强，但它不一定伟大。真正伟大的技术，不是少数巨头才能拥有的技术，而是能在更多现实约束中生存下来的技术。

N64 跑 Transformer、POWER8 淘宝贝式改造推理机，这些事情真正迷人的地方，不是“逆天”，而是“诚实”。它们逼迫我们重新回答一个本该早点回答的问题：AI 到底是在追求更大的幻觉，还是在建设更可靠的现实？

我的判断是，下一阶段真正有价值的公司，会越来越少谈“模型有多大”，越来越多谈“系统有多稳、成本有多低、部署有多自由”。

说到底，真正的护城河，不是更大的模型，而是更诚实的计算。
而这，才是 AI 从表演走向产业的开始。

— https://www.80aj.com