Andrej Karpathy 的 AI 时代预言：为什么 90% 的团队都在白费力气？

核心洞察：Software 2.0、可验证性（Verifiability）、Agent Harness、LLM Wiki

现在是 2026 年，大模型已经成了基础设施。

每天都有无数的团队在熬夜：微调模型、写又长又臭的提示词、搞一套看似华丽的 Agent 框架。然后呢？

然后放到生产环境里，一击即碎。

大家都很焦虑：为什么看了那么多教程，AI 还是像个随机发疯的黑盒？
因为大把的开发者，正在用修马车的思维，去设计内燃机。

Andrej Karpathy 最大的价值，根本不是他开源了什么酷炫的代码，或者写了什么牛逼的 Prompt。他做了一件更狠的事：他把 AI 从魔法，重新拉回了工程学。

如果你觉得最近的开发节奏一团糟，别急着换新模型，先停下来，读懂 Karpathy 留下的这套底层认知系统。

1. 残酷真相：你写的那点逻辑，越来越不值钱

在聊 Agent 之前，必须要懂 Karpathy 几年前提的那个振聋发聩的概念：Software 2.0。

过去我们怎么写代码？
产品经理出需求，程序员把它翻译成几百个 if/else。这就是 Software 1.0 的局：你去手写规则。

但现在呢？神经网络是“写不出来，只能训出来”的系统。

这就带来了一个极其残酷的工程后果：
你过去引以为傲的“局部代码优化技巧”，正在快速贬值。
在新时代，你不需要手把手教 AI 怎么走路。你需要做的是设计赛道，设定重力引擎，然后告诉它：“跑到终点拿奖励”。

代码正在变成一种“耗材”。
为了查一个小 Bug，随手生成个工具，用完就扔。快速验证想法，搓个粗糙原型，不行就丢。
当代码变得如此低廉，你的护城河在哪？
在于：设计系统边界、制定约束条件、定义成功标准。

2. 为什么有的 AI 是神，有的像智障？只因“可验证性”

这是 Karpathy 思想中最能立刻变现的一条：Verifiability（可验证性）。

团队引入 AI 失败，99% 是死在这个坎上。

大模型在写代码、做数学题时为什么那么神？因为这些任务具备三个极度舒适的条件：
1. 能反复试错
2. 试错成本几乎为零
3. 机器能自动给它打分（跑通了就是 100 分，报错了就是 0 分）

它知道自己错在哪，它就能自我进化。

但在战略决策、发散性创意、或者业务沟通里为什么就不行？因为没人能给它标准答案。反馈太慢，评价太玄学，它找不到北。

止血方案：
引入 AI 的第一步，绝对不是去买算力，而是逼着自己写下“机器可执行的验收标准”。
如果一个流程没法被自动打分验收，就把它剁碎，拆到能被验证为止。别把模糊的难题丢给 AI，把确定性的考验丢给它。

3. 别迷信大模型，它只是个概率引擎（Jagged Intelligence）

现在很多人有个误区：看 AI 写出一首好诗，就以为它能掌管公司财务。这叫把 AI 当神仙。
看它算错了一道两位数的加法，又觉得它是个废品。这叫把 AI 当弱智。

Karpathy 戳破了这个幻象：智能是锯齿状的。

大模型的能力是高峰与深谷的集合体。这一秒它是绝顶聪明的老者，下一秒它连基础常识都会搞错。

如果你抱着“找一个完美模型解决所有问题”的心态，你会永远挣扎在测试和抓狂的地狱里。

真正的工程解法是什么？极限的边界管理。
- 给模型画个圈：只派它去干它极其稳定发力的高光区。
- 设置火力网：在所有高风险决策外面，裹上厚厚的硬编码校验规则。
- 引入陪审团：用多模型交叉印证，或者硬生生卡一个人类环节来做最终把关。

不要试图教会猴子不乱挥大棒，要把整个房间铺上防撞海绵。

4. 决定系统生死的暗线：Harness

同一个 GPT，在你手里像个玩具，在别人手里却是个工业流水线。为什么？
因为你缺了一个 Harness（系统运行时套件）。

这是决定你在 AI 时代能不能活下去的关键。Harness 就是套在野马头上的缰绳。没有它，模型就是一匹乱冲乱撞的疯马。

一个真正能放进生产环境的系统，大模型本身可能只占 10%。剩下 90% 全是 Harness 里的“脏活累活”：
- 上下文怎么喂给它才不会超载？
- 任务太大了，怎么切片分发？
- 它调用系统工具报错了，怎么原地满血复活进行重试？
- 它的长期记忆和思考的中间状态存在哪儿？
- 它的最终产出需要过哪几道测试门禁？

Karpathy 有句名言：“Remove yourself as the bottleneck”（把你本人从瓶颈里挪开）。
这并不是让你放手不管，而是要求你把脑子里那些“老法师凭经验判断”的隐蔽法则，明文化为机器随时能读取比对的校验条文。

5. 抛弃落后的临时翻书（RAG），建造你的 LLM Wiki

现在谁家还没个基于内部语料库的 RAG（检索增强生成）系统？
但它们大多像是个患了严重健忘症的临时工：每次你去查个业务细节，它现找资料临时拼凑给你，下次问还是老样子，系统本身不随着时间进化。

Karpathy 的思路比这深远得多：从“被动临时捞取”升级为“后台主动编译”。

这就是 LLM Wiki 理念。
你的系统不应该等你发问才去翻书。系统应该像程序员熟悉的“持续集成（CI）”一样，永不休眠地吞吐每天新涌进来的文档、工单、会议纪要。系统在后台自动打通标签、建立索引、发现上下文矛盾，进行深度重组。

这才是真正可怕的技术杠杆：它让团队的“共有认知”脱离了人脑的物理限制，真正转变为可审查（Lintable）、自驱动复利增长的数字资产。

6. 从理论到落地：立刻能抄的作业

不解决实际问题的哲学都是空谈。如果你看完觉得焦虑，照着这三分时间表立刻开干：

【本周内的快速止血】

挑一个每天都在高频重复的小任务。别急着拿模型跑，先把它死死控在一个标准夹具里：“清晰输入 -> 独立原子动作 -> 自动化脚本验收 -> 报错强制回滚”。
先用最基础的代码把这个环跑通 20 次。不要看成功的案例，死盯失败的案例。把那些失败的特征提取出来，重写为下一次运行的硬约束规则。

【三十天内的流程破局】

停掉那些花里胡哨假装全知的闲聊机器。
挑出 1 个有真正商业价值的核心业务流，把它改为“机器先锋趟雷，人类终端核验”的半步推进（Human-in-the-loop）。
集中团队核心力量手写你们的第一个 Harness 框架基座，把异常重试和容错的逻辑，死死地焊在业务系统的底层架构里。

【九十天内的护城河搭建】

别再到处散落零碎的文档。把企业内部的业务图谱彻底盘活，打造自更新的流转车间。
只有学会将不可靠的概率引擎，强行锁入带有绝对冗余与刚性防线的确定性铁笼之中，你和你的团队，才算真正领到了这波 AI 巨浪下的时代船票。

风向彻底变了。

不再是拼谁记得住更多冷门 API，也不再是拼谁背得多几句恶心的 Prompt 咒语。
真正的角斗场，属于那些能以工程的残酷与严谨，去统治智能的混沌的操盘手。将这套框架刻进你的肌肉记忆里，它才是面对未来唯一不会贬值的资本。