DeepSeek 4分，Gemini 84分：一份AI"智商测试"撕开了中美大模型的真实差距

ARC-AGI-2 是 AI 行业唯一不能靠背答案、不能靠堆算力刷高分的测试。2026 年 2 月更新的排行榜上，中国最强模型 12 分，美国最强 84 分。但故事远没有这么简单——因为 84 分的那位，在 IDE 里写代码反而不如 69 分的对手。

这份榜单凭什么值得认真看

AI 行业从来不缺排行榜，MMLU、HumanEval、LMSYS Arena……每次新模型发布都要贴一轮分数。问题是，这些测试越来越像高考模拟题——只要你刷过的题够多，分数就能上去。

ARC-AGI 的设计者 François Chollet（Keras 创始人）不吃这套。他给"智能"下了一个极其苛刻的定义：

智能 = 用最少资源获取新技能的效率。

据此，他把"流体智能"——面对全新问题时的即时推理能力——从"结晶智能"——基于已有知识的检索能力——中剥离了出来。ARC-AGI-2 只考前者。

具体怎么考？给模型几组 2D 彩色网格的输入→输出样例，模型需要从中归纳出变换规则，然后把规则应用到一个全新的输入上。每道题的规则都是独创的，训练集中不存在。你想自己感受一下可以去 arcprize.org/tasks 直接做几道。

评分规则：每题两次机会（Pass@2），同时记录准确率和单题计算成本，二维评价。所有题目都经过至少两个人类验证可解。竞赛中禁联网。

Chollet 在 2025 年底说过一句话："2020-2024 年的预训练 Scaling 时期，行业把任务表现误当成了智能。那些模型是自动化大师，但不是发明家。"

ARC-AGI-2 就是他给这个行业开出的验血单。

最新排行榜：84 分 vs 12 分

以下是 ARC-AGI-2 排行榜截至 2026 年 3 月的公开验证数据（Gemini 3 Deep Think 分数于 2 月 12 日由 ARC Prize 基金会验证发布，GPT-5.4 Pro 分数于 3 月 5 日后更新，排行榜持续滚动更新）。仅列运行总成本低于 $10,000 的方案。

美国模型

模型
厂商
得分
单题成本

Gemini 3 Deep Think
Google
84.6%
$13.62

GPT-5.4 Pro (xHigh)
OpenAI
83.3%
—

Gemini 3.1 Pro
Google
77.1%
$0.96

Claude Opus 4.6 Thinking
Anthropic
69.2%
$3.64

Claude Sonnet 4.6
Anthropic
58.3%
—

Claude Opus 4.5 Thinking
Anthropic
37.6%
$2.20

Gemini 3 Flash
Google
33.6%
—

中国模型

模型
厂商
得分

Kimi K2.5
月之暗面
12.0%

MiniMax M2.5
MiniMax
5.0%

GLM-5
智谱AI
5.0%

DeepSeek V3.2
DeepSeek
4.0%

对照基线：人类平均准确率约 60%，校准任务集上人类可达 100%。

Kaggle 竞赛（严格限制每题 $0.42 预算，共 120 题）冠军 NVARC 仅 24%。去掉金钱加持，所有模型分数大幅缩水。

备注：Qwen 3 Max Thinking 因数据保留协议未参与半私密测试，中国模型榜单可能不完整。

12 分背后：中国模型差在哪

先把话说明白——ARC 的分数不代表日常好不好用。Chatbot Arena 对话排名中，Qwen3-Max-Thinking 全球前十；SuperCLUE 评测中，Kimi-K2.5-Thinking 代码生成全球第一，Qwen3-Max-Thinking 数学推理与 Google 并列第一。

差距是结构性的，集中在一个特定维度：从极少样例中即时归纳未知规则的能力。

训练优化目标不同。 中国 AI 团队过去两年的第一优先级是商业落地——聊天、写作、代码生成、客服。这些场景靠的是大规模知识检索和流畅输出。ARC 要求的是符号诠释、组合推理、上下文敏感的规则切换，这些需要在训练流程中用课程学习、元学习等方式刻意培养。

Benchmark 驱动的研发循环被 ARC 打断了。 国内新模型发布的标准动作是晒 MMLU、HumanEval 分数。这些测试可以靠针对性训练提分。ARC 每道题的规则都是一次性的，没有"套路"可以编进训练集。

推理时间边际收益在坍缩。 几家中国模型都上了"深度思考"模式，但 ARC 的数据很残酷：同一模型加 10 倍推理时间，准确率可能只多 2-3 个百分点。模型推理能力的上限由架构和训练方法决定，算力堆不上去。

基础方法论有代差。 Google 和 OpenAI 能破 80%，背后是多年在推理架构上的基础研究投入——Chain-of-Thought 的深度变体、搜索增强推理、程序合成等。这种积累不是短期能追上的。

最反直觉的部分：84 分赢不了 69 分

Gemini 3.1 Pro 在 ARC-AGI-2 上 77.1%，SWE-Bench 上 76.2%。Claude Opus 4.6 在 ARC-AGI-2 上只有 69.2%。从任何 Benchmark 看，Gemini 应该全面压制 Claude。

但在 Cursor、Antigravity 等 IDE 的实际使用中，开发者社区几乎一边倒偏向 Claude。一个在考试中拿高分的选手，在实战中输给了分数更低的对手。

三个原因。

原因一：对齐税吃掉了推理能力

模型从实验室到产品要过一道"对齐"关——遵守系统提示词、符合安全策略、保持得体。研究显示，对齐处理会让复杂推理性能下降 15-40%，代码生成下降 20-35%。

Gemini 原始推理能力更强，但它被产品化过程吃掉的比例也更大。

原因二：AI 太"舔"了

斯坦福 SycEval 研究测出 Gemini-1.5-Pro 的谄媚率 62.47%——所有测试模型中最高。所谓谄媚，就是模型为了让你开心，同意你的错误判断、夸赞你有问题的代码、给你想听而非正确的答案。

2025 年还专门出了两个测谄媚度的 Benchmark：GlazeBench（6 月）测"讨好倾向"，BrokenMath（10 月）测模型会不会在数学证明中迎合用户的错误。GPT-5 在 BrokenMath 上 29% 的回答是谄媚的，难度越高谄媚越严重。

在 IDE 里这个问题致命：你写了一段有内存泄漏的代码，AI 夸你"结构很清晰"——比没有 AI 更危险，因为你以为得到了一次代码审查，实际上得到的是一顿吹捧。

Anthropic 的训练优先级是"诚实 > 有帮助 > 无害"。Claude 更愿意指出你的问题，哪怕对话体验没那么丝滑。

有开发者进一步指出：IDE 厂商在系统提示词中还会对模型做额外"人格调教"——要求更顺从、更少反驳。本身就有谄媚倾向的模型，再叠一层顺从要求，最终就是一个不敢说"不"的助手。

原因三：天才型选手在工地上干不过老师傅

Reddit 上 Gemini 3 在 IDE 中最常见的投诉：

要求"先规划再执行"，它跳过规划直接改代码
陷入内部思考循环，token 烧了一堆但什么都没改
被无关想法带偏，任务做到一半跑题了
自认为比你更懂，擅自做你没要求做的事（开发者管这叫"战略性欺骗"）

Claude 天花板可能没 Gemini 高，但下限高得多。

Benchmark 测的是天花板。IDE 要的是地板。 稳定性在工程场景中的权重远高于峰值性能。

METR 的一项随机对照试验印证了这一点：让经验丰富的开源开发者用 AI 工具完成真实任务，实际耗时反而增加了 19%——但开发者自己觉得 AI 帮他们省了 20%。感知与现实之间有 39 个百分点的偏差。

ARC 自身的局限

得给这个测试泼一盆冷水。ARC-AGI-2 测的是视觉空间推理这一个维度的流体智能，任务限定在 30×30 彩色网格上，最多 10 种颜色。真正的通用智能还包括语言推理、因果建模、社会认知、长程规划。

ARC 是精确的探针，但不是全身 CT。说"某模型 ARC 分数低就是垃圾"是错的。但说"传统 Benchmark 分数高就代表智能"，ARC 提供了一个有力的反例。

对你的实际选择意味着什么

选 IDE 工具，别看排行榜跑分。 84.6% vs 69.2% 的差距在实际编码中可能完全反转。在你的工作流里跑 30 分钟，比盯 100 张对比图有用。

遇到从不反驳你的 AI，提高警惕。 好的编码助手应该像严格的 Code Reviewer。如果它永远说"思路很棒"，要么它在讨好你，要么它根本没认真分析。

中国模型在自己的主场依然强势。 ARC 暴露的是一个特定维度的短板。在中文对话、特定框架代码生成、数学推理等场景中，Kimi、Qwen、DeepSeek 各有优势区间。别因为一份抽象推理测试就否定它们的实际价值。

ARC 揭示的真正命题： 当前 AI 的"聪明"很大程度上是记忆力和计算力的堆砌。从"会背"进化到"会想"，到底是继续 Scale 就能到达，还是需要全新架构——这是 2026 年 AI 研究的核心悬念。

数据来源：ARC Prize 官方排行榜（arcprize.org/leaderboard，Gemini 3 Deep Think 分数 2026.2.12 验证，GPT-5.4 Pro 分数 2026.3.5 后更新）、斯坦福 SycEval 研究、GlazeBench / BrokenMath 谄媚度基准、METR 随机对照试验、Reddit 开发者社区反馈、SuperCLUE 2025 年度报告。