← 返回列表

ARC Is a Vision Problem!

作者 Keya Hu, Ali Cy, Linlu Qiu, Xiaoman Delores Ding, Runqian Wang, Yeyin Eva Zhu, Jacob Andreas, Kaiming He

年份 2025

会议/期刊 arXiv 2025

评分 ★ ★ ★ ★ ★

标签图像分类 Transformer

摘要将 ARC 抽象推理基准重新定义为视觉问题，用 ViT + 测试时训练达到 60.4% 准确率，匹配人类水平

论文原文代码仓库

核心思想

ARC（Abstraction and Reasoning Corpus）是衡量 AI 抽象推理能力的基准，传统方法将其视为语言/符号推理问题。本文提出：ARC 本质上是一个视觉问题——涉及反射、对称、重力、填充等视觉概念，应该用视觉架构来解决。

提出 VARC（Vision ARC） 框架：ViT 在「画布」表示上做图像到图像映射，配合测试时训练（TTT），在 ARC-1 上达到 60.4%，匹配人类平均水平（60.2%）。

ARC 基准中的视觉概念：反射、对称、重力等

VARC 解决的未见任务示例

方法详解

1. 问题定义

每个 ARC 任务 $T$ 包含：

演示集：$\mathcal{D}\text{demo}^T = {(\mathbf{x}_i, \mathbf{y}_i)}{i=1}^m$（$m = 2 \sim 4$ 对输入-输出网格）
推断集：$\mathcal{D}\text{infer}^T = {(\mathbf{x}_i, \mathbf{y}_i)}{i=1}^n$（$n = 1 \sim 2$，需要预测 $\mathbf{y}$）

每个网格最大 30×30，10 种颜色。模型需要从少量演示中学习规则，然后预测新输入的输出。

2. 目标函数

\[\mathcal{L}(\theta) = \mathbb{E}_{T, i}\big[\mathcal{D}(\mathbf{y}_i, f_\theta(\mathbf{x}_i \mid T))\big] \tag{1}\]

其中：

$f_\theta$：以任务 $T$（演示对）为条件的神经网络
$\mathcal{D}$：逐像素交叉熵损失
$\mathbf{x}_i$：输入网格，$\mathbf{y}_i$：目标输出网格

3. 画布表示

ARC 网格大小不固定（最大 30×30），需要统一表示。将所有网格放置在固定大小的 64×64 画布上：

网格放在画布左上角，剩余区域用背景色填充
支持平移增强：随机放置位置
支持缩放增强：随机整数缩放因子 $s$，每个像素复制为 $s \times s$

平移和缩放增强示意

为什么缩放增强如此重要？

ARC 的规则是基于拓扑/几何关系定义的，缩放不改变规则
缩放后同一个像素占据更大面积，模型更容易捕捉局部模式
消融实验显示缩放增强贡献 +6.2% 准确率（所有增强中最大）

4. 视觉架构设计

4.1 Patch 化

将 64×64 画布划分为 2×2 patch，得到 32×32 = 1024 个 token。

关键 insight：ARC 有 10 种颜色（$C = 10$），1×1 patch 只有 10 种可能输入；2×2 patch 有 $10^4 = 10000$ 种可能组合，大大扩展了可学习的 token 空间。

4.2 2D 位置嵌入

使用可学习的 2D 位置嵌入（而非 1D），保留空间结构信息。

4.3 任务条件化

将演示对 ${(\mathbf{x}i, \mathbf{y}_i)}$ 的所有 patch token 拼接为上下文，与测试输入 $\mathbf{x}\text{test}$ 的 token 一起送入 ViT。

ViT 架构在 VARC 中的实现

5. 两阶段训练

5.1 离线训练（全局）

在 400 个训练任务上训练，学习通用的视觉推理能力。

5.2 测试时训练（TTT）

对每个新任务进行 100 轮微调：

辅助任务生成：从演示对通过旋转（0°/90°/180°/270°）、翻转、颜色置换生成 50 个辅助训练样本
在辅助样本上微调 100 轮
微调后的模型用于推断

为什么需要 TTT？

ARC 的测试任务与训练任务完全不同（新规则）
仅靠离线训练无法泛化到未见规则
TTT 利用演示对作为「任务内训练数据」快速适配

测试时训练的效果：预测逐步精化

6. 多视图推理

推理时对每个测试输入生成 510 个增强视图（不同平移、缩放、翻转组合），每个视图独立预测，然后通过多数投票选择最终答案。

推理方式	Pass@1	Pass@2
单视图	35.9%	-
多视图	49.8%	54.5%

多视图投票带来 +14% 的提升。

实验结果

ARC-1 基准主要结果

方法	准确率
VARC 集成（ViT + U-Net）	60.4%
VARC 单模型（ViT-18M）	54.5%
人类平均	60.2%

首次用从零训练的视觉模型匹配人类水平。

视觉先验消融（累积增益 27.7%）

增强/设计	增益
2D 位置嵌入	+1.7%
Patch 化（1×1 → 2×2）	+2.4%
平移增强	+2.9%
缩放增强	+6.2%
总计	+27.7%

消融实验：视觉先验的累积贡献

缩放增强的贡献最大（+6.2%），体现了视觉归纳偏置的重要性。

架构对比

架构	参数量	GFLOPs	准确率
ViT-18M	18M	28	54.5%
U-Net-17M	17M	33	47.5%

ViT 显著优于 U-Net（+7%），可能因为全局注意力更适合 ARC 的长距离推理。

ARC-2 结果

方法	准确率
VARC 集成	11.1%
VARC 单模型	8.3%

ARC-2 更难（更复杂的规则），仍有很大提升空间。

个人思考

「ARC 是视觉问题」这个 reframing 非常有力：ARC 涉及的对称、旋转、填充等概念本质上是空间/几何的，用视觉架构处理比语言模型更自然。
缩放增强的效果惊人（+6.2%）：说明 ARC 的规则具有尺度不变性，这是一个强视觉先验。
测试时训练是关键：离线训练只能学到通用视觉特征，TTT 才是适配新规则的核心机制。这与 meta-learning 的思想一脉相承。
18M 参数匹配人类：相比动辄数十亿参数的 LLM 方法，VARC 以极小模型达到相当水平，体现了正确归纳偏置的价值。
ARC-2 的 11.1% 暴露了局限：当规则复杂度增加时，纯视觉方法的推理能力仍然有限。可能需要视觉+符号推理的混合方法。

← 返回列表