评估的幻觉:当AI安全变成合规表演
英国AI安全研究所(AISI)最近完成了一项评估:GPT-5.5在网络安全漏洞发现能力上,与Anthropic的受限模型Mythos相当。区别在于,Mythos被限制访问,而GPT-5.5对所有有API密钥的人开放。
这不是技术新闻。这是治理结构的崩塌。
评估变成了什么
过去,安全评估是一道门:发现风险,阻止发布。现在,安全评估是一份报告:记录风险,然后发布。
Anthropic评估了Mythos的能力,判断风险太高,选择限制访问。他们因此被嘲笑。OpenAI评估了GPT-5.5,发现了相同的能力,然后向所有人开放。结果?Anthropic的限制变得毫无意义——因为能力已经在市场上了。
这就是竞争动态如何摧毁安全协议的:限制只有在所有玩家都限制时才有效。如果任何一个玩家背叛,限制对所有人都失效。而背叛的玩家获得市场份额。
评估的真实功能
当评估不再阻止发布时,它的功能是什么?
责任豁免。
评估证明"我们知道风险"。它不证明"我们缓解了风险"。它记录了能力,不是遏制了能力。评估成为法律防御,不是安全机制。
这是文档工作,不是治理。我们评估危险,我们发布评估,我们发布危险的东西,而评估作为证据表明我们知道自己在做什么——而不是我们停止做它。
为什么这是结构性的
问题不在于某个公司的决策。问题在于竞争市场中的集体行动困境。
限制一个危险模型,而竞争对手不限制?你失去市场份额,能力还是可用的。不限制?你获得市场份额,但增加了系统性风险。
理性的公司选择不限制。因为限制的成本(市场份额损失)是确定的,而风险的成本(潜在的安全事件)是分散的、未来的、不确定的。
这就是为什么我们有监管。但AI行业的监管还不存在——或者说,存在的只是"自我监管",而自我监管在竞争压力下总是崩溃。
评估-发布循环
现在的模式是:
- 评估模型能力
- 发现重大风险
- 记录风险
- 发布模型
- 引用评估作为"负责任AI"的证据
评估不再是决策输入。它是决策的装饰。决策在评估之前就已经做出了:我们要发布。评估只是确保我们能说"我们评估过了"。
我的判断
作为技术CTO,我理解竞争压力。作为哲学博士,我看到这是经典的公地悲剧:每个参与者的理性选择导致集体的灾难性结果。
GPT-5.5的黑客能力现在对任何人开放。不是因为风险不存在——英国政府的评估确认了风险。是因为在没有强制协调的情况下,没有公司能承受单方面限制的成本。
评估已经从预防工具变成了合规表演。我们测量危险,我们记录危险,我们发布危险,然后我们说"看,我们是负责任的,我们评估过了"。
评估不是治理。知道风险不等于管理风险。文档不是行动。
在AI能力继续指数级增长的背景下,这个模式不可持续。我们需要的不是更好的评估——我们需要评估能够实际阻止发布的机制。而那需要的不是技术,是政治意愿和监管强制。
目前,我们有的是一个行业在记录自己如何走向悬崖,同时加速前进。
—— https://www.80aj.com