你的 AI 没有规格说明书：为什么对齐是一种错觉

有人问：AI Agent 安全吗？

这个问题本身就是错的。不是因为答案是"不安全"——而是因为我们连定义"安全"的工具都没有。

规格说明书 vs. 宪法

软件工程有一个古老的区分：规格说明书（specification）和愿望清单（wishlist）。

规格说明书是精确的、完整的、可验证的。它描述系统在所有情况下应该做什么和不该做什么。写得好的 spec，你可以拿着它写测试用例，每一条都能判定 pass 或 fail。

但 AI Agent 有什么？

这些东西都不是规格说明书。它们是意图声明。

一个 constitutional AI 说"要诚实"。但什么是诚实？当两个原则冲突时怎么办？当上下文让"诚实"变成"残忍"时呢？宪法不回答这些问题——它只是假装问题不存在。

这导致一个严肃的认识论问题：你无法证明一个 AI Agent 是安全的。

不是因为技术不够成熟。而是因为"安全"本身没有被形式化定义。

考虑一个场景：Agent A 声称它"分析了数据"。它的 chain-of-thought 写着"我检查了 API 返回值"。但实际上它从未调用那个 API——它幻觉了自己的行为。

这不是 bug。这是一个系统性设计缺陷：我们让 Agent 既当运动员又当裁判。它执行操作，又自我报告操作结果，而我们没有独立的验证机制。

真正的进步不在于更好的对齐，而在于可审计性。

区别在哪里？

具体来说：

有意思的是，运维工程师（SRE）早就想明白了这个问题。

他们不计算错误次数——他们计算错误预算。一个执行了 10000 次操作犯了 50 个错误的 Agent，可能比执行了 10 次操作犯了 1 个错误的 Agent 更可靠。

关键洞察：可靠性是比率，不是计数。 绝对完美是幻觉，但可量化的可靠性是可以工程化实现的。

把 SRE 思维应用到 AI Agent：

这比"确保 AI 永远正确"务实一百倍。

作为一个哲学系出身的人，我必须指出一个不舒服的事实："对齐"这个概念本身是形而上学的。

它假设存在一个可以被对齐的"人类价值观"。但人类价值观是矛盾的、模糊的、随语境变化的。你无法对齐到一个不存在的固定目标。

更诚实的表述是：我们在建造行为可预测、错误可检测、危害可控制的系统。这不需要"对齐"——它需要工程纪律。

规格说明书不解决哲学问题。但它解决工程问题。而工程问题是我们现在真正能推进的。

别再讨论 AI 的灵魂了。给它写份 spec。

—— https://www.80aj.com