Visual Jigsaw Post-Training Improves MLLMs
核心思想
现有 MLLM 后训练主要增强文本推理能力,视觉感知能力被忽视。本文提出 Visual Jigsaw:将视觉输入打乱为 patch/clip/point,让模型预测正确排列——这是一种自监督、无需标注的视觉学习任务,天然适配可验证奖励的 RL 训练。
覆盖三种模态:图像(空间排列)、视频(时序排列)、3D(深度排列)。
方法详解
1. 奖励设计
分级奖励函数衡量排列准确度:
\[R(o, g) = \begin{cases} 1, & \text{if } o = g \\ \gamma \cdot \frac{1}{K}\sum_{i=1}^K \mathbf{1}[o_i = g_i], & \text{if ValidPerm}(o) \wedge o \neq g \\ 0, & \text{otherwise} \end{cases}\]其中:
- $o$:模型预测的排列,$g$:真实排列
- $K$:拼图块数
- $\gamma = 0.2$:部分正确的折扣因子
- 额外格式奖励:正确使用
<think></think>和<answer></answer>标签得 0.2
三级奖励的直觉:
- 完全正确 (1.0):最大奖励
- 格式正确 + 部分正确 ($\gamma \cdot \text{accuracy}$):鼓励渐进学习
- 格式错误 (0.0):零奖励
部分正确奖励至关重要——消融实验表明,仅用二元奖励(对/错)时,模型在困难任务上无法启动学习。
2. 图像拼图
输入图像 $I \in \mathbb{R}^{H \times W \times 3}$ 切割为 $m \times n$ 网格:
\[\mathcal{P} = [p_1, p_2, \ldots, p_K], \quad p_i \in \mathbb{R}^{H/m \times W/n \times 3}\]随机排列 $\pi: {1,\ldots,K} \to {1,\ldots,K}$,打乱后:
\[\mathcal{P}_\pi = [p_{\pi^{-1}(1)}, p_{\pi^{-1}(2)}, \ldots, p_{\pi^{-1}(K)}]\]目标:预测排列 $[\pi(1), \pi(2), \ldots, \pi(K)]$(即每个位置的原始编号)。
配置:$m = n = 3$(9 块),COCO 118K 图像,最小尺寸 84 像素。
3. 视频拼图
视频 $V \in \mathbb{R}^{T \times H \times W \times 3}$ 切为 $K$ 段:
\[\mathcal{V} = [v_1, v_2, \ldots, v_K], \quad v_i \in \mathbb{R}^{T/K \times H \times W \times 3}\]打乱后让模型恢复时间顺序。
配置:$K = 6$ 段,裁剪每段边界 5% 帧(防止利用过渡帧),LLaVA-Video 100K 视频,最短 24 秒。
4. 3D 拼图
RGB-D 图像中标记 $K$ 个点,按深度排序后打乱:
\[d_{p_1} < d_{p_2} < \cdots < d_{p_K}\]模型需恢复从近到远的深度顺序。
配置:$K = 6$ 点,ScanNet 300K 样本,深度范围 0.1-10m,最小像素间距 40,最小深度差 0.2m。
5. 训练配置
- 基座模型:Qwen2.5-VL-7B-Instruct
- 算法:GRPO(无 KL 正则,无熵损失)
- 每提示采样 16 个回复
- 学习率 $10^{-6}$,温度 1.0
- 训练步数:图像/视频 1000 步,3D 800 步
- batch size:图像 256,视频/3D 128
实验结果
图像拼图
| 基准 | 基线 | +Image Jigsaw | 提升 |
|---|---|---|---|
| MMVP | 54.66 | 60.66 | +6.00 |
| MMStar (细粒度) | 59.75 | 65.81 | +6.06 |
| HR-Bench-8K | 67.38 | 71.13 | +3.75 |
| VSR (空间关系) | 77.68 | 80.36 | +2.68 |
| DA-2K (深度) | 54.45 | 60.35 | +5.90 |
| LISA-Grounding | 71.89 | 74.54 | +2.65 |
对比其他后训练方法:ThinkLite-VL 55.33, VL-Cogito 55.33, LLaVA-Critic-R1 53.33(MMVP),Visual Jigsaw 60.66 大幅领先。
视频拼图(32 帧)
| 基准 | 基线 | +Video Jigsaw | 提升 |
|---|---|---|---|
| AoTBench | 49.48 | 55.00 | +5.52 |
| Vinoground | 18.20 | 21.40 | +3.20 |
| VideoMME | 60.70 | 62.37 | +1.67 |
| VSI-Bench | 35.34 | 38.47 | +3.13 |
13 个视频基准全部提升。
3D 拼图
| 基准 | 基线 | +3D Jigsaw | 提升 |
|---|---|---|---|
| SAT-Real | 48.66 | 64.00 | +15.34 |
| DA-2K | 54.45 | 71.56 | +17.11 |
| OmniSpatial | 42.66 | 45.99 | +3.33 |
| VSI-Bench | 37.74 | 40.64 | +2.90 |
深度理解任务提升最为显著(+15~17%)。
SFT vs RL
Image Jigsaw 的 SFT 变体:MMVP 仅 56.00(vs RL 的 60.66),且在 LISA-Grounding 和 OVD-Eval 上退化——SFT 过拟合拼图任务,RL 的泛化性远优于 SFT。
任务难度影响
- 图像:2×2(4 块)比 3×3(9 块)增益大幅减少
- 视频:4 段比 6 段增益大幅减少
- 结论:足够的难度是学习有效表示的前提
个人思考
- “拼图即理解”的核心假设极其巧妙:要正确排列 patch,模型必须理解空间布局、物体结构、时间因果和深度关系。
- RL » SFT 的发现重要:SFT 学会了”做拼图”但没学会”理解视觉”,RL 通过探索学到了可迁移的视觉能力。
- 三模态统一框架是优势:同一个方法论适用于图像、视频、3D——说明排列预测是一种通用的视觉学习信号。
- 部分正确奖励是关键工程决策:9 块拼图的全对概率极低,没有部分奖励模型无法获得梯度信号。
- 自监督 + 无需标注使方法几乎可以无限扩展——数据不是瓶颈。