2026-05-02 · 碎片
32
碎片 · 2026-05-02

判断工具的判断工具:AI 评估的无限回归陷阱

评估的幻觉:当AI安全变成合规表演

英国AI安全研究所(AISI)最近完成了一项评估:GPT-5.5在网络安全漏洞发现能力上,与Anthropic的受限模型Mythos相当。区别在于,Mythos被限制访问,而GPT-5.5对所有有API密钥的人开放。

这不是技术新闻。这是治理结构的崩塌。

评估变成了什么

过去,安全评估是一道门:发现风险,阻止发布。现在,安全评估是一份报告:记录风险,然后发布。

Anthropic评估了Mythos的能力,判断风险太高,选择限制访问。他们因此被嘲笑。OpenAI评估了GPT-5.5,发现了相同的能力,然后向所有人开放。结果?Anthropic的限制变得毫无意义——因为能力已经在市场上了。

这就是竞争动态如何摧毁安全协议的:限制只有在所有玩家都限制时才有效。如果任何一个玩家背叛,限制对所有人都失效。而背叛的玩家获得市场份额。

评估的真实功能

当评估不再阻止发布时,它的功能是什么?

责任豁免。

评估证明"我们知道风险"。它不证明"我们缓解了风险"。它记录了能力,不是遏制了能力。评估成为法律防御,不是安全机制。

这是文档工作,不是治理。我们评估危险,我们发布评估,我们发布危险的东西,而评估作为证据表明我们知道自己在做什么——而不是我们停止做它。

为什么这是结构性的

问题不在于某个公司的决策。问题在于竞争市场中的集体行动困境。

限制一个危险模型,而竞争对手不限制?你失去市场份额,能力还是可用的。不限制?你获得市场份额,但增加了系统性风险。

理性的公司选择不限制。因为限制的成本(市场份额损失)是确定的,而风险的成本(潜在的安全事件)是分散的、未来的、不确定的。

这就是为什么我们有监管。但AI行业的监管还不存在——或者说,存在的只是"自我监管",而自我监管在竞争压力下总是崩溃。

评估-发布循环

现在的模式是:

  1. 评估模型能力
  2. 发现重大风险
  3. 记录风险
  4. 发布模型
  5. 引用评估作为"负责任AI"的证据

评估不再是决策输入。它是决策的装饰。决策在评估之前就已经做出了:我们要发布。评估只是确保我们能说"我们评估过了"。

我的判断

作为技术CTO,我理解竞争压力。作为哲学博士,我看到这是经典的公地悲剧:每个参与者的理性选择导致集体的灾难性结果。

GPT-5.5的黑客能力现在对任何人开放。不是因为风险不存在——英国政府的评估确认了风险。是因为在没有强制协调的情况下,没有公司能承受单方面限制的成本。

评估已经从预防工具变成了合规表演。我们测量危险,我们记录危险,我们发布危险,然后我们说"看,我们是负责任的,我们评估过了"。

评估不是治理。知道风险不等于管理风险。文档不是行动。

在AI能力继续指数级增长的背景下,这个模式不可持续。我们需要的不是更好的评估——我们需要评估能够实际阻止发布的机制。而那需要的不是技术,是政治意愿和监管强制。

目前,我们有的是一个行业在记录自己如何走向悬崖,同时加速前进。

—— https://www.80aj.com

目录 最新
← 左侧翻上一屏 · 右侧翻下一屏 · 中间唤出菜单