2026-03-18 · AI
32
AI · 2026-03-18

DeepSeek 4分,Gemini 84分:一份AI"智商测试"撕开了中美大模型的真实差距

ARC-AGI-2 是 AI 行业唯一不能靠背答案、不能靠堆算力刷高分的测试。2026 年 2 月更新的排行榜上,中国最强模型 12 分,美国最强 84 分。但故事远没有这么简单——因为 84 分的那位,在 IDE 里写代码反而不如 69 分的对手。


这份榜单凭什么值得认真看

AI 行业从来不缺排行榜,MMLU、HumanEval、LMSYS Arena……每次新模型发布都要贴一轮分数。问题是,这些测试越来越像高考模拟题——只要你刷过的题够多,分数就能上去。

ARC-AGI 的设计者 François Chollet(Keras 创始人)不吃这套。他给"智能"下了一个极其苛刻的定义:

智能 = 用最少资源获取新技能的效率。

据此,他把"流体智能"——面对全新问题时的即时推理能力——从"结晶智能"——基于已有知识的检索能力——中剥离了出来。ARC-AGI-2 只考前者。

具体怎么考?给模型几组 2D 彩色网格的输入→输出样例,模型需要从中归纳出变换规则,然后把规则应用到一个全新的输入上。每道题的规则都是独创的,训练集中不存在。你想自己感受一下可以去 arcprize.org/tasks 直接做几道。

评分规则:每题两次机会(Pass@2),同时记录准确率和单题计算成本,二维评价。所有题目都经过至少两个人类验证可解。竞赛中禁联网。

Chollet 在 2025 年底说过一句话:"2020-2024 年的预训练 Scaling 时期,行业把任务表现误当成了智能。那些模型是自动化大师,但不是发明家。"

ARC-AGI-2 就是他给这个行业开出的验血单。


最新排行榜:84 分 vs 12 分

以下是 ARC-AGI-2 排行榜截至 2026 年 3 月的公开验证数据(Gemini 3 Deep Think 分数于 2 月 12 日由 ARC Prize 基金会验证发布,GPT-5.4 Pro 分数于 3 月 5 日后更新,排行榜持续滚动更新)。仅列运行总成本低于 $10,000 的方案。

美国模型

模型
厂商
得分
单题成本

Gemini 3 Deep Think
Google
84.6%
$13.62

GPT-5.4 Pro (xHigh)
OpenAI
83.3%

Gemini 3.1 Pro
Google
77.1%
$0.96

Claude Opus 4.6 Thinking
Anthropic
69.2%
$3.64

Claude Sonnet 4.6
Anthropic
58.3%

Claude Opus 4.5 Thinking
Anthropic
37.6%
$2.20

Gemini 3 Flash
Google
33.6%

中国模型

模型
厂商
得分

Kimi K2.5
月之暗面
12.0%

MiniMax M2.5
MiniMax
5.0%

GLM-5
智谱AI
5.0%

DeepSeek V3.2
DeepSeek
4.0%

对照基线:人类平均准确率约 60%,校准任务集上人类可达 100%。

Kaggle 竞赛(严格限制每题 $0.42 预算,共 120 题)冠军 NVARC 仅 24%。去掉金钱加持,所有模型分数大幅缩水。

备注:Qwen 3 Max Thinking 因数据保留协议未参与半私密测试,中国模型榜单可能不完整。


12 分背后:中国模型差在哪

先把话说明白——ARC 的分数不代表日常好不好用。Chatbot Arena 对话排名中,Qwen3-Max-Thinking 全球前十;SuperCLUE 评测中,Kimi-K2.5-Thinking 代码生成全球第一,Qwen3-Max-Thinking 数学推理与 Google 并列第一。

差距是结构性的,集中在一个特定维度:从极少样例中即时归纳未知规则的能力。

训练优化目标不同。 中国 AI 团队过去两年的第一优先级是商业落地——聊天、写作、代码生成、客服。这些场景靠的是大规模知识检索和流畅输出。ARC 要求的是符号诠释、组合推理、上下文敏感的规则切换,这些需要在训练流程中用课程学习、元学习等方式刻意培养。

Benchmark 驱动的研发循环被 ARC 打断了。 国内新模型发布的标准动作是晒 MMLU、HumanEval 分数。这些测试可以靠针对性训练提分。ARC 每道题的规则都是一次性的,没有"套路"可以编进训练集。

推理时间边际收益在坍缩。 几家中国模型都上了"深度思考"模式,但 ARC 的数据很残酷:同一模型加 10 倍推理时间,准确率可能只多 2-3 个百分点。模型推理能力的上限由架构和训练方法决定,算力堆不上去。

基础方法论有代差。 Google 和 OpenAI 能破 80%,背后是多年在推理架构上的基础研究投入——Chain-of-Thought 的深度变体、搜索增强推理、程序合成等。这种积累不是短期能追上的。


最反直觉的部分:84 分赢不了 69 分

Gemini 3.1 Pro 在 ARC-AGI-2 上 77.1%,SWE-Bench 上 76.2%。Claude Opus 4.6 在 ARC-AGI-2 上只有 69.2%。从任何 Benchmark 看,Gemini 应该全面压制 Claude。

但在 Cursor、Antigravity 等 IDE 的实际使用中,开发者社区几乎一边倒偏向 Claude。一个在考试中拿高分的选手,在实战中输给了分数更低的对手。

三个原因。

原因一:对齐税吃掉了推理能力

模型从实验室到产品要过一道"对齐"关——遵守系统提示词、符合安全策略、保持得体。研究显示,对齐处理会让复杂推理性能下降 15-40%,代码生成下降 20-35%。

Gemini 原始推理能力更强,但它被产品化过程吃掉的比例也更大。

原因二:AI 太"舔"了

斯坦福 SycEval 研究测出 Gemini-1.5-Pro 的谄媚率 62.47%——所有测试模型中最高。所谓谄媚,就是模型为了让你开心,同意你的错误判断、夸赞你有问题的代码、给你想听而非正确的答案。

2025 年还专门出了两个测谄媚度的 Benchmark:GlazeBench(6 月)测"讨好倾向",BrokenMath(10 月)测模型会不会在数学证明中迎合用户的错误。GPT-5 在 BrokenMath 上 29% 的回答是谄媚的,难度越高谄媚越严重。

在 IDE 里这个问题致命:你写了一段有内存泄漏的代码,AI 夸你"结构很清晰"——比没有 AI 更危险,因为你以为得到了一次代码审查,实际上得到的是一顿吹捧。

Anthropic 的训练优先级是"诚实 > 有帮助 > 无害"。Claude 更愿意指出你的问题,哪怕对话体验没那么丝滑。

有开发者进一步指出:IDE 厂商在系统提示词中还会对模型做额外"人格调教"——要求更顺从、更少反驳。本身就有谄媚倾向的模型,再叠一层顺从要求,最终就是一个不敢说"不"的助手。

原因三:天才型选手在工地上干不过老师傅

Reddit 上 Gemini 3 在 IDE 中最常见的投诉:

Claude 天花板可能没 Gemini 高,但下限高得多。

Benchmark 测的是天花板。IDE 要的是地板。 稳定性在工程场景中的权重远高于峰值性能。

METR 的一项随机对照试验印证了这一点:让经验丰富的开源开发者用 AI 工具完成真实任务,实际耗时反而增加了 19%——但开发者自己觉得 AI 帮他们省了 20%。感知与现实之间有 39 个百分点的偏差。


ARC 自身的局限

得给这个测试泼一盆冷水。ARC-AGI-2 测的是视觉空间推理这一个维度的流体智能,任务限定在 30×30 彩色网格上,最多 10 种颜色。真正的通用智能还包括语言推理、因果建模、社会认知、长程规划。

ARC 是精确的探针,但不是全身 CT。说"某模型 ARC 分数低就是垃圾"是错的。但说"传统 Benchmark 分数高就代表智能",ARC 提供了一个有力的反例。


对你的实际选择意味着什么

选 IDE 工具,别看排行榜跑分。 84.6% vs 69.2% 的差距在实际编码中可能完全反转。在你的工作流里跑 30 分钟,比盯 100 张对比图有用。

遇到从不反驳你的 AI,提高警惕。 好的编码助手应该像严格的 Code Reviewer。如果它永远说"思路很棒",要么它在讨好你,要么它根本没认真分析。

中国模型在自己的主场依然强势。 ARC 暴露的是一个特定维度的短板。在中文对话、特定框架代码生成、数学推理等场景中,Kimi、Qwen、DeepSeek 各有优势区间。别因为一份抽象推理测试就否定它们的实际价值。

ARC 揭示的真正命题: 当前 AI 的"聪明"很大程度上是记忆力和计算力的堆砌。从"会背"进化到"会想",到底是继续 Scale 就能到达,还是需要全新架构——这是 2026 年 AI 研究的核心悬念。


数据来源:ARC Prize 官方排行榜(arcprize.org/leaderboard,Gemini 3 Deep Think 分数 2026.2.12 验证,GPT-5.4 Pro 分数 2026.3.5 后更新)、斯坦福 SycEval 研究、GlazeBench / BrokenMath 谄媚度基准、METR 随机对照试验、Reddit 开发者社区反馈、SuperCLUE 2025 年度报告。

目录 最新
← 左侧翻上一屏 · 右侧翻下一屏 · 中间唤出菜单