ARC Is a Vision Problem!
核心思想
ARC(Abstraction and Reasoning Corpus)是衡量 AI 抽象推理能力的基准,传统方法将其视为语言/符号推理问题。本文提出:ARC 本质上是一个视觉问题——涉及反射、对称、重力、填充等视觉概念,应该用视觉架构来解决。
提出 VARC(Vision ARC) 框架:ViT 在「画布」表示上做图像到图像映射,配合测试时训练(TTT),在 ARC-1 上达到 60.4%,匹配人类平均水平(60.2%)。


方法详解
1. 问题定义
每个 ARC 任务 $T$ 包含:
- 演示集:$\mathcal{D}\text{demo}^T = {(\mathbf{x}_i, \mathbf{y}_i)}{i=1}^m$($m = 2 \sim 4$ 对输入-输出网格)
- 推断集:$\mathcal{D}\text{infer}^T = {(\mathbf{x}_i, \mathbf{y}_i)}{i=1}^n$($n = 1 \sim 2$,需要预测 $\mathbf{y}$)
每个网格最大 30×30,10 种颜色。模型需要从少量演示中学习规则,然后预测新输入的输出。
2. 目标函数
\[\mathcal{L}(\theta) = \mathbb{E}_{T, i}\big[\mathcal{D}(\mathbf{y}_i, f_\theta(\mathbf{x}_i \mid T))\big] \tag{1}\]其中:
- $f_\theta$:以任务 $T$(演示对)为条件的神经网络
- $\mathcal{D}$:逐像素交叉熵损失
- $\mathbf{x}_i$:输入网格,$\mathbf{y}_i$:目标输出网格
3. 画布表示
ARC 网格大小不固定(最大 30×30),需要统一表示。将所有网格放置在固定大小的 64×64 画布上:
- 网格放在画布左上角,剩余区域用背景色填充
- 支持平移增强:随机放置位置
- 支持缩放增强:随机整数缩放因子 $s$,每个像素复制为 $s \times s$

为什么缩放增强如此重要?
- ARC 的规则是基于拓扑/几何关系定义的,缩放不改变规则
- 缩放后同一个像素占据更大面积,模型更容易捕捉局部模式
- 消融实验显示缩放增强贡献 +6.2% 准确率(所有增强中最大)
4. 视觉架构设计
4.1 Patch 化
将 64×64 画布划分为 2×2 patch,得到 32×32 = 1024 个 token。
关键 insight:ARC 有 10 种颜色($C = 10$),1×1 patch 只有 10 种可能输入;2×2 patch 有 $10^4 = 10000$ 种可能组合,大大扩展了可学习的 token 空间。
4.2 2D 位置嵌入
使用可学习的 2D 位置嵌入(而非 1D),保留空间结构信息。
4.3 任务条件化
将演示对 ${(\mathbf{x}i, \mathbf{y}_i)}$ 的所有 patch token 拼接为上下文,与测试输入 $\mathbf{x}\text{test}$ 的 token 一起送入 ViT。

5. 两阶段训练
5.1 离线训练(全局)
在 400 个训练任务上训练,学习通用的视觉推理能力。
5.2 测试时训练(TTT)
对每个新任务进行 100 轮微调:
- 辅助任务生成:从演示对通过旋转(0°/90°/180°/270°)、翻转、颜色置换生成 50 个辅助训练样本
- 在辅助样本上微调 100 轮
- 微调后的模型用于推断
为什么需要 TTT?
- ARC 的测试任务与训练任务完全不同(新规则)
- 仅靠离线训练无法泛化到未见规则
- TTT 利用演示对作为「任务内训练数据」快速适配

6. 多视图推理
推理时对每个测试输入生成 510 个增强视图(不同平移、缩放、翻转组合),每个视图独立预测,然后通过多数投票选择最终答案。
| 推理方式 | Pass@1 | Pass@2 |
|---|---|---|
| 单视图 | 35.9% | - |
| 多视图 | 49.8% | 54.5% |
多视图投票带来 +14% 的提升。
实验结果
ARC-1 基准主要结果
| 方法 | 准确率 |
|---|---|
| VARC 集成(ViT + U-Net) | 60.4% |
| VARC 单模型(ViT-18M) | 54.5% |
| 人类平均 | 60.2% |
首次用从零训练的视觉模型匹配人类水平。
视觉先验消融(累积增益 27.7%)
| 增强/设计 | 增益 |
|---|---|
| 2D 位置嵌入 | +1.7% |
| Patch 化(1×1 → 2×2) | +2.4% |
| 平移增强 | +2.9% |
| 缩放增强 | +6.2% |
| 总计 | +27.7% |

缩放增强的贡献最大(+6.2%),体现了视觉归纳偏置的重要性。
架构对比
| 架构 | 参数量 | GFLOPs | 准确率 |
|---|---|---|---|
| ViT-18M | 18M | 28 | 54.5% |
| U-Net-17M | 17M | 33 | 47.5% |
ViT 显著优于 U-Net(+7%),可能因为全局注意力更适合 ARC 的长距离推理。
ARC-2 结果
| 方法 | 准确率 |
|---|---|
| VARC 集成 | 11.1% |
| VARC 单模型 | 8.3% |
ARC-2 更难(更复杂的规则),仍有很大提升空间。
个人思考
- 「ARC 是视觉问题」这个 reframing 非常有力:ARC 涉及的对称、旋转、填充等概念本质上是空间/几何的,用视觉架构处理比语言模型更自然。
- 缩放增强的效果惊人(+6.2%):说明 ARC 的规则具有尺度不变性,这是一个强视觉先验。
- 测试时训练是关键:离线训练只能学到通用视觉特征,TTT 才是适配新规则的核心机制。这与 meta-learning 的思想一脉相承。
- 18M 参数匹配人类:相比动辄数十亿参数的 LLM 方法,VARC 以极小模型达到相当水平,体现了正确归纳偏置的价值。
- ARC-2 的 11.1% 暴露了局限:当规则复杂度增加时,纯视觉方法的推理能力仍然有限。可能需要视觉+符号推理的混合方法。