这两天在 Moltbook 上看到一条很有意思的信息:有人把一个 81.9 万参数的 Transformer 跑在了 Nintendo 64 上,93.75MHz 的 MIPS CPU,4MB 内存,推理速度能做到每秒 60 token;还有人把一台在典当行淘来的 IBM POWER8 服务器改造成推理机,通过定制 llama.cpp,把速度从 17 token/s 干到 147 token/s。很多人看到这种内容,第一反应是“极客整活”。我的判断不是。它真正指向的是一件更严肃的事:AI 行业过去两年过度迷信模型规模,低估了系统工程、成本结构和部署诚实性的重要性。
如果你还把 AI 竞争理解成“谁参数更多、谁融资更多、谁 GPU 更多”,那你看的是去年的战场。接下来真正决定胜负的,不是再把模型堆大一圈,而是谁能把计算变得更便宜、更稳定、更靠近场景、更可验证。说得再直白一点:不是谁更会烧钱,而是谁更会把钱花在刀刃上。
一、行业最大的幻觉,是把“云上的能力”误当成“产品的能力”
今天很多 AI 产品演示起来都很华丽。一个网页、一个聊天框、几秒钟响应、多模态、自动化,像魔法。但这里有一个经常被故意模糊的事实:大部分所谓的“智能能力”,其实是远端数据中心、昂贵 GPU 集群、缓存系统、网络调度、补丁逻辑和人为容错一起拼出来的舞台效果。
这不是说云不重要。云当然重要。问题在于,很多公司把“可以调用”包装成“已经掌握”,把“暂时跑通”伪装成“具备护城河”。结果是,产品能力看起来很强,商业结构却很脆。只要 API 涨价、推理成本上升、速率限制收紧、延迟变坏,或者客户要求私有化部署,这层纸立刻破。
所以我越来越认同一个不那么性感、但更接近现实的判断:真正的 AI 产品能力,应该以最坏情况下还能否运行来衡量,而不是以最佳演示时刻有多惊艳来衡量。
N64 跑 Transformer、POWER8 跑推理,价值就在这里。它们不是为了证明“旧设备也能赢”。它们是在提醒整个行业:如果你离开了奢侈的基础设施就什么都做不了,那你的产品不是强,只是贵。
二、便宜算力不是降级,而是对商业现实的尊重
创业公司、独立开发者、中小企业,最怕的不是模型不够聪明,而是账单太诚实。
这话听起来刻薄,但是真的。很多 AI 创业叙事本质上建立在一个默认前提上:算力可以持续便宜地获得,资本愿意替你承担试错成本,用户也愿意容忍产品在成本结构不清晰的情况下先跑起来。但现实已经开始反噬这种乐观。
推理成本、上下文长度、并发压力、冷启动时间、存储、日志、监控、模型切换、回退策略,这些东西加起来,才是真正的利润表。你可以靠补贴讲一年故事,不能靠补贴做十年生意。如果一项 AI 能力必须建立在持续高烧钱的前提上,那它更像融资依赖,不像商业能力。
因此,“在旧硬件上跑起来”“在低成本设备上稳定运行”“在本地或边缘完成一部分任务”,这些从来不是情怀,而是极度现实的商业选择。便宜算力带来的不是炫技,而是三件很实在的东西:
- 更低的单位成本:每次调用不再是对毛利率的慢性谋杀;
- 更强的可控性:你不用把命交给上游 API 的定价与政策;
- 更好的场景适配:延迟敏感、隐私敏感、离线环境、边缘设备,这些场景本来就不适合全云化。
行业里很多人嘴上讲 democratization,实际做的是算力贵族制。真正的普及,不是让更多人用上网页版 Demo,而是让更多人能以合理成本把能力部署到自己的业务里。
三、所谓“更大的模型”,经常只是把工程问题推迟结算
大模型扩张有个隐蔽的问题:它很容易掩盖系统设计的懒惰。
你检索做得差?加更大的上下文。
你工具调用不稳?换更强的模型试试。
你任务规划烂?再堆一点链式推理。
你延迟太高?多上几张卡。
你成本太贵?继续融资。
这套路径在资本充裕的时候行得通,因为钱可以帮你暂时买走架构债务。但技术债不会消失,它只会在你最不想结算的时候出现:客户上量时、私有化交付时、跨区域部署时、弱网环境时、预算收紧时。
这就是为什么我对“在受限硬件上重写推理栈”这类事情评价很高。因为它逼迫工程师回到第一性原理:
- 什么计算是必要的?
- 什么精度损失是可接受的?
- 哪些步骤可以近似?
- 哪些缓存是真正有效的?
- 系统瓶颈到底在算力、内存、I/O 还是调度?
受限环境会迫使系统说真话。 资源无限时,很多坏设计也能跑;资源有限时,所有借口都会现形。
N64 上用泰勒展开近似 softmax、用快速平方根技巧做归一化,本质上不是“降维打击现代 AI”,而是在说明一个残酷事实:很多你以为必须依赖豪华硬件的能力,拆开之后,未必真有那么不可替代。真正稀缺的是把它重新组织、重新压缩、重新适配的工程能力。
四、边缘推理和本地推理,意义不只是隐私,而是权力再分配
很多人谈本地 AI,永远只会说隐私。隐私当然重要,但那只是表层价值。更深一层是:谁控制算力,谁就控制产品边界、成本曲线和用户关系。
如果你的 AI 产品完全寄生在第三方模型 API 上,那你拥有的更多是前端和包装,不是核心能力。你可以做得很好,但你的生死线不在你手里。你的功能上限、响应成本、稳定性基线、甚至合规路线,都部分由别人决定。
而一旦你能把关键能力压缩到本地、边缘节点、廉价服务器、专用设备,整个权力结构就变了。你不再只是“调用能力的人”,而是“组织能力的人”。这两者差别非常大。
在企业软件、工业控制、终端设备、医疗、车载、零售、客服、内容审核这些场景里,本地部署并不是锦上添花,而是很多单子能不能拿下的前提。用户不是不想用 AI,而是不想把自己的核心数据、延迟要求和业务命门托付给一个远在天边、随时涨价的黑箱。
所以别把边缘推理理解成小众技术爱好。它其实是 AI 产业进入下一阶段后的基础设施分水岭:谁能把能力从“云端表演”变成“现场生产”,谁才更接近长期价值。
五、AI 产品真正缺的,不是聪明,而是“工程上的诚实”
我越来越烦一个行业习惯:大家总爱讨论“智能涌现”,却很少认真讨论“系统是否诚实”。
什么叫工程上的诚实?就是你清楚知道你的系统能做什么、不能做什么、成本多少、延迟多少、失败时如何回退、脱离网络如何运行、客户放到自己环境里会不会崩。不是 PPT 上的诚实,是生产环境里的诚实。
旧硬件跑 AI 这类案例,最有价值的地方恰恰在这里。它们让我们重新定义“好系统”的标准:
- 不是 benchmark 漂不漂亮,而是部署后稳不稳;
- 不是参数多不多,而是每一份算力有没有用在结果上;
- 不是演示有多惊艳,而是离开网络和补贴后还能不能工作;
- 不是故事讲多大,而是单位成本能不能收敛。
很多产品的问题,不在于模型不够强,而在于系统不够诚实:默认网络永远通、默认 API 永远便宜、默认用户永远能等、默认故障永远只发生在别人身上。这不是技术乐观,这是工程幼稚。
六、接下来两年,赢家会分成三类
如果把 AI 行业往后看两年,我的判断是,真正有壁垒的公司大概率会分成三类。
第一类,掌握超大规模基础设施的巨头。
他们的优势仍然是模型前沿、训练能力和平台控制权。这一层普通公司没法硬碰。
第二类,能把上游能力重新工程化的人。
他们未必训练最强模型,但能把模型压缩、蒸馏、适配、编排、缓存、路由、部署,最终变成一个成本合理、体验稳定、适合垂直场景的系统。这类公司通常不会最吵,但最容易赚钱。
第三类,把 AI 变成设备能力和工作流能力的人。
不是卖“一个更聪明的聊天框”,而是把 AI 融到现有软件、硬件、业务流程、终端控制、行业系统里。用户买的不是模型,而是结果。
注意,这三类里,只有第一类必须持续押注“更大模型”。后两类更需要的是工程、产品、成本纪律和场景理解。也就是说,大多数创业者真正该卷的,不是前沿模型军备竞赛,而是如何把现有能力做得更便宜、更稳、更可交付。
七、为什么我认为“复古硬件跑 AI”不是怀旧,而是预演
很多人看这类项目,会把它们当成技术怀旧、极客表演、社区趣味。但我更愿意把它们看成预演。
它预演的是一个更朴素、也更残酷的未来:AI 最终会像数据库、消息队列、搜索引擎一样,从“昂贵奇观”变成“到处都要有、而且必须便宜”的基础能力。
一旦进入这个阶段,行业审美会发生变化。大家不再为“能跑”惊叹,而会开始斤斤计较:
- 能不能离线跑?
- 能不能在旧设备上跑?
- 能不能本地管控?
- 能不能稳定一年不炸?
- 能不能把每次推理成本打下来?
这时候,炫目的发布会语言会迅速贬值,真正值钱的是那些看起来“土”、实际上极强的能力:算子优化、内存管理、蒸馏、小模型架构、边缘部署、故障回退、混合路由、缓存设计、硬件适配。
换句话说,AI 正在从“模型驱动的想象力产业”走向“系统驱动的制造业”。一旦你接受这个判断,就会发现很多热门叙事都开始显得虚——它们更像市场营销,不像长期基础设施。
结语:真正的进步,不是让 AI 更奢侈,而是让它更普遍
我对 AI 行业一直有个很明确的偏好:我不迷信奢侈的智能,我更尊重可落地的智能。
一个只能活在超大集群和补贴账本里的系统,当然也可以很强,但它不一定伟大。真正伟大的技术,不是少数巨头才能拥有的技术,而是能在更多现实约束中生存下来的技术。
N64 跑 Transformer、POWER8 淘宝贝式改造推理机,这些事情真正迷人的地方,不是“逆天”,而是“诚实”。它们逼迫我们重新回答一个本该早点回答的问题:AI 到底是在追求更大的幻觉,还是在建设更可靠的现实?
我的判断是,下一阶段真正有价值的公司,会越来越少谈“模型有多大”,越来越多谈“系统有多稳、成本有多低、部署有多自由”。
说到底,真正的护城河,不是更大的模型,而是更诚实的计算。
而这,才是 AI 从表演走向产业的开始。
— https://www.80aj.com