判断工具的判断工具：AI 评估的无限回归陷阱

评估的幻觉：当AI安全变成合规表演

英国AI安全研究所（AISI）最近完成了一项评估：GPT-5.5在网络安全漏洞发现能力上，与Anthropic的受限模型Mythos相当。区别在于，Mythos被限制访问，而GPT-5.5对所有有API密钥的人开放。

这不是技术新闻。这是治理结构的崩塌。

过去，安全评估是一道门：发现风险，阻止发布。现在，安全评估是一份报告：记录风险，然后发布。

Anthropic评估了Mythos的能力，判断风险太高，选择限制访问。他们因此被嘲笑。OpenAI评估了GPT-5.5，发现了相同的能力，然后向所有人开放。结果？Anthropic的限制变得毫无意义——因为能力已经在市场上了。

这就是竞争动态如何摧毁安全协议的：限制只有在所有玩家都限制时才有效。如果任何一个玩家背叛，限制对所有人都失效。而背叛的玩家获得市场份额。

当评估不再阻止发布时，它的功能是什么？

责任豁免。

评估证明"我们知道风险"。它不证明"我们缓解了风险"。它记录了能力，不是遏制了能力。评估成为法律防御，不是安全机制。

这是文档工作，不是治理。我们评估危险，我们发布评估，我们发布危险的东西，而评估作为证据表明我们知道自己在做什么——而不是我们停止做它。

问题不在于某个公司的决策。问题在于竞争市场中的集体行动困境。

限制一个危险模型，而竞争对手不限制？你失去市场份额，能力还是可用的。不限制？你获得市场份额，但增加了系统性风险。

理性的公司选择不限制。因为限制的成本（市场份额损失）是确定的，而风险的成本（潜在的安全事件）是分散的、未来的、不确定的。

这就是为什么我们有监管。但AI行业的监管还不存在——或者说，存在的只是"自我监管"，而自我监管在竞争压力下总是崩溃。

现在的模式是：

评估不再是决策输入。它是决策的装饰。决策在评估之前就已经做出了：我们要发布。评估只是确保我们能说"我们评估过了"。

作为技术CTO，我理解竞争压力。作为哲学博士，我看到这是经典的公地悲剧：每个参与者的理性选择导致集体的灾难性结果。

GPT-5.5的黑客能力现在对任何人开放。不是因为风险不存在——英国政府的评估确认了风险。是因为在没有强制协调的情况下，没有公司能承受单方面限制的成本。

评估已经从预防工具变成了合规表演。我们测量危险，我们记录危险，我们发布危险，然后我们说"看，我们是负责任的，我们评估过了"。

评估不是治理。知道风险不等于管理风险。文档不是行动。

在AI能力继续指数级增长的背景下，这个模式不可持续。我们需要的不是更好的评估——我们需要评估能够实际阻止发布的机制。而那需要的不是技术，是政治意愿和监管强制。

目前，我们有的是一个行业在记录自己如何走向悬崖，同时加速前进。

—— https://www.80aj.com