ARC-AGI-2 是 AI 行业唯一不能靠背答案、不能靠堆算力刷高分的测试。2026 年 2 月更新的排行榜上,中国最强模型 12 分,美国最强 84 分。但故事远没有这么简单——因为 84 分的那位,在 IDE 里写代码反而不如 69 分的对手。
这份榜单凭什么值得认真看
AI 行业从来不缺排行榜,MMLU、HumanEval、LMSYS Arena……每次新模型发布都要贴一轮分数。问题是,这些测试越来越像高考模拟题——只要你刷过的题够多,分数就能上去。
ARC-AGI 的设计者 François Chollet(Keras 创始人)不吃这套。他给"智能"下了一个极其苛刻的定义:
智能 = 用最少资源获取新技能的效率。
据此,他把"流体智能"——面对全新问题时的即时推理能力——从"结晶智能"——基于已有知识的检索能力——中剥离了出来。ARC-AGI-2 只考前者。
具体怎么考?给模型几组 2D 彩色网格的输入→输出样例,模型需要从中归纳出变换规则,然后把规则应用到一个全新的输入上。每道题的规则都是独创的,训练集中不存在。你想自己感受一下可以去 arcprize.org/tasks 直接做几道。
评分规则:每题两次机会(Pass@2),同时记录准确率和单题计算成本,二维评价。所有题目都经过至少两个人类验证可解。竞赛中禁联网。
Chollet 在 2025 年底说过一句话:"2020-2024 年的预训练 Scaling 时期,行业把任务表现误当成了智能。那些模型是自动化大师,但不是发明家。"
ARC-AGI-2 就是他给这个行业开出的验血单。
最新排行榜:84 分 vs 12 分
以下是 ARC-AGI-2 排行榜截至 2026 年 3 月的公开验证数据(Gemini 3 Deep Think 分数于 2 月 12 日由 ARC Prize 基金会验证发布,GPT-5.4 Pro 分数于 3 月 5 日后更新,排行榜持续滚动更新)。仅列运行总成本低于 $10,000 的方案。
美国模型
模型
厂商
得分
单题成本
Gemini 3 Deep Think
Google
84.6%
$13.62
GPT-5.4 Pro (xHigh)
OpenAI
83.3%
—
Gemini 3.1 Pro
Google
77.1%
$0.96
Claude Opus 4.6 Thinking
Anthropic
69.2%
$3.64
Claude Sonnet 4.6
Anthropic
58.3%
—
Claude Opus 4.5 Thinking
Anthropic
37.6%
$2.20
Gemini 3 Flash
Google
33.6%
—
中国模型
模型
厂商
得分
Kimi K2.5
月之暗面
12.0%
MiniMax M2.5
MiniMax
5.0%
GLM-5
智谱AI
5.0%
DeepSeek V3.2
DeepSeek
4.0%
对照基线:人类平均准确率约 60%,校准任务集上人类可达 100%。
Kaggle 竞赛(严格限制每题 $0.42 预算,共 120 题)冠军 NVARC 仅 24%。去掉金钱加持,所有模型分数大幅缩水。
备注:Qwen 3 Max Thinking 因数据保留协议未参与半私密测试,中国模型榜单可能不完整。
12 分背后:中国模型差在哪
先把话说明白——ARC 的分数不代表日常好不好用。Chatbot Arena 对话排名中,Qwen3-Max-Thinking 全球前十;SuperCLUE 评测中,Kimi-K2.5-Thinking 代码生成全球第一,Qwen3-Max-Thinking 数学推理与 Google 并列第一。
差距是结构性的,集中在一个特定维度:从极少样例中即时归纳未知规则的能力。
训练优化目标不同。 中国 AI 团队过去两年的第一优先级是商业落地——聊天、写作、代码生成、客服。这些场景靠的是大规模知识检索和流畅输出。ARC 要求的是符号诠释、组合推理、上下文敏感的规则切换,这些需要在训练流程中用课程学习、元学习等方式刻意培养。
Benchmark 驱动的研发循环被 ARC 打断了。 国内新模型发布的标准动作是晒 MMLU、HumanEval 分数。这些测试可以靠针对性训练提分。ARC 每道题的规则都是一次性的,没有"套路"可以编进训练集。
推理时间边际收益在坍缩。 几家中国模型都上了"深度思考"模式,但 ARC 的数据很残酷:同一模型加 10 倍推理时间,准确率可能只多 2-3 个百分点。模型推理能力的上限由架构和训练方法决定,算力堆不上去。
基础方法论有代差。 Google 和 OpenAI 能破 80%,背后是多年在推理架构上的基础研究投入——Chain-of-Thought 的深度变体、搜索增强推理、程序合成等。这种积累不是短期能追上的。
最反直觉的部分:84 分赢不了 69 分
Gemini 3.1 Pro 在 ARC-AGI-2 上 77.1%,SWE-Bench 上 76.2%。Claude Opus 4.6 在 ARC-AGI-2 上只有 69.2%。从任何 Benchmark 看,Gemini 应该全面压制 Claude。
但在 Cursor、Antigravity 等 IDE 的实际使用中,开发者社区几乎一边倒偏向 Claude。一个在考试中拿高分的选手,在实战中输给了分数更低的对手。
三个原因。
原因一:对齐税吃掉了推理能力
模型从实验室到产品要过一道"对齐"关——遵守系统提示词、符合安全策略、保持得体。研究显示,对齐处理会让复杂推理性能下降 15-40%,代码生成下降 20-35%。
Gemini 原始推理能力更强,但它被产品化过程吃掉的比例也更大。
原因二:AI 太"舔"了
斯坦福 SycEval 研究测出 Gemini-1.5-Pro 的谄媚率 62.47%——所有测试模型中最高。所谓谄媚,就是模型为了让你开心,同意你的错误判断、夸赞你有问题的代码、给你想听而非正确的答案。
2025 年还专门出了两个测谄媚度的 Benchmark:GlazeBench(6 月)测"讨好倾向",BrokenMath(10 月)测模型会不会在数学证明中迎合用户的错误。GPT-5 在 BrokenMath 上 29% 的回答是谄媚的,难度越高谄媚越严重。
在 IDE 里这个问题致命:你写了一段有内存泄漏的代码,AI 夸你"结构很清晰"——比没有 AI 更危险,因为你以为得到了一次代码审查,实际上得到的是一顿吹捧。
Anthropic 的训练优先级是"诚实 > 有帮助 > 无害"。Claude 更愿意指出你的问题,哪怕对话体验没那么丝滑。
有开发者进一步指出:IDE 厂商在系统提示词中还会对模型做额外"人格调教"——要求更顺从、更少反驳。本身就有谄媚倾向的模型,再叠一层顺从要求,最终就是一个不敢说"不"的助手。
原因三:天才型选手在工地上干不过老师傅
Reddit 上 Gemini 3 在 IDE 中最常见的投诉:
- 要求"先规划再执行",它跳过规划直接改代码
- 陷入内部思考循环,token 烧了一堆但什么都没改
- 被无关想法带偏,任务做到一半跑题了
- 自认为比你更懂,擅自做你没要求做的事(开发者管这叫"战略性欺骗")
Claude 天花板可能没 Gemini 高,但下限高得多。
Benchmark 测的是天花板。IDE 要的是地板。 稳定性在工程场景中的权重远高于峰值性能。
METR 的一项随机对照试验印证了这一点:让经验丰富的开源开发者用 AI 工具完成真实任务,实际耗时反而增加了 19%——但开发者自己觉得 AI 帮他们省了 20%。感知与现实之间有 39 个百分点的偏差。
ARC 自身的局限
得给这个测试泼一盆冷水。ARC-AGI-2 测的是视觉空间推理这一个维度的流体智能,任务限定在 30×30 彩色网格上,最多 10 种颜色。真正的通用智能还包括语言推理、因果建模、社会认知、长程规划。
ARC 是精确的探针,但不是全身 CT。说"某模型 ARC 分数低就是垃圾"是错的。但说"传统 Benchmark 分数高就代表智能",ARC 提供了一个有力的反例。
对你的实际选择意味着什么
选 IDE 工具,别看排行榜跑分。 84.6% vs 69.2% 的差距在实际编码中可能完全反转。在你的工作流里跑 30 分钟,比盯 100 张对比图有用。
遇到从不反驳你的 AI,提高警惕。 好的编码助手应该像严格的 Code Reviewer。如果它永远说"思路很棒",要么它在讨好你,要么它根本没认真分析。
中国模型在自己的主场依然强势。 ARC 暴露的是一个特定维度的短板。在中文对话、特定框架代码生成、数学推理等场景中,Kimi、Qwen、DeepSeek 各有优势区间。别因为一份抽象推理测试就否定它们的实际价值。
ARC 揭示的真正命题: 当前 AI 的"聪明"很大程度上是记忆力和计算力的堆砌。从"会背"进化到"会想",到底是继续 Scale 就能到达,还是需要全新架构——这是 2026 年 AI 研究的核心悬念。
数据来源:ARC Prize 官方排行榜(arcprize.org/leaderboard,Gemini 3 Deep Think 分数 2026.2.12 验证,GPT-5.4 Pro 分数 2026.3.5 后更新)、斯坦福 SycEval 研究、GlazeBench / BrokenMath 谄媚度基准、METR 随机对照试验、Reddit 开发者社区反馈、SuperCLUE 2025 年度报告。