← 返回列表

Visual Jigsaw Post-Training Improves MLLMs

作者 Penghao Wu, Yushan Zhang, Haiwen Diao, Bo Li, Lewei Lu, Ziwei Liu
年份 2025
会议/期刊 arXiv 2025
评分
标签 多模态 强化学习
摘要 自监督视觉拼图后训练:将图像/视频/3D 打乱为 patch 让模型预测排列顺序,GRPO 训练提升细粒度感知,MMVP +6.0%

核心思想

现有 MLLM 后训练主要增强文本推理能力,视觉感知能力被忽视。本文提出 Visual Jigsaw:将视觉输入打乱为 patch/clip/point,让模型预测正确排列——这是一种自监督、无需标注的视觉学习任务,天然适配可验证奖励的 RL 训练。

覆盖三种模态:图像(空间排列)、视频(时序排列)、3D(深度排列)。

方法详解

1. 奖励设计

分级奖励函数衡量排列准确度:

\[R(o, g) = \begin{cases} 1, & \text{if } o = g \\ \gamma \cdot \frac{1}{K}\sum_{i=1}^K \mathbf{1}[o_i = g_i], & \text{if ValidPerm}(o) \wedge o \neq g \\ 0, & \text{otherwise} \end{cases}\]

其中:

  • $o$:模型预测的排列,$g$:真实排列
  • $K$:拼图块数
  • $\gamma = 0.2$:部分正确的折扣因子
  • 额外格式奖励:正确使用 <think></think><answer></answer> 标签得 0.2

三级奖励的直觉

  • 完全正确 (1.0):最大奖励
  • 格式正确 + 部分正确 ($\gamma \cdot \text{accuracy}$):鼓励渐进学习
  • 格式错误 (0.0):零奖励

部分正确奖励至关重要——消融实验表明,仅用二元奖励(对/错)时,模型在困难任务上无法启动学习。

2. 图像拼图

输入图像 $I \in \mathbb{R}^{H \times W \times 3}$ 切割为 $m \times n$ 网格:

\[\mathcal{P} = [p_1, p_2, \ldots, p_K], \quad p_i \in \mathbb{R}^{H/m \times W/n \times 3}\]

随机排列 $\pi: {1,\ldots,K} \to {1,\ldots,K}$,打乱后:

\[\mathcal{P}_\pi = [p_{\pi^{-1}(1)}, p_{\pi^{-1}(2)}, \ldots, p_{\pi^{-1}(K)}]\]

目标:预测排列 $[\pi(1), \pi(2), \ldots, \pi(K)]$(即每个位置的原始编号)。

配置:$m = n = 3$(9 块),COCO 118K 图像,最小尺寸 84 像素。

3. 视频拼图

视频 $V \in \mathbb{R}^{T \times H \times W \times 3}$ 切为 $K$ 段:

\[\mathcal{V} = [v_1, v_2, \ldots, v_K], \quad v_i \in \mathbb{R}^{T/K \times H \times W \times 3}\]

打乱后让模型恢复时间顺序

配置:$K = 6$ 段,裁剪每段边界 5% 帧(防止利用过渡帧),LLaVA-Video 100K 视频,最短 24 秒。

4. 3D 拼图

RGB-D 图像中标记 $K$ 个点,按深度排序后打乱:

\[d_{p_1} < d_{p_2} < \cdots < d_{p_K}\]

模型需恢复从近到远的深度顺序

配置:$K = 6$ 点,ScanNet 300K 样本,深度范围 0.1-10m,最小像素间距 40,最小深度差 0.2m。

5. 训练配置

  • 基座模型:Qwen2.5-VL-7B-Instruct
  • 算法:GRPO(无 KL 正则,无熵损失)
  • 每提示采样 16 个回复
  • 学习率 $10^{-6}$,温度 1.0
  • 训练步数:图像/视频 1000 步,3D 800 步
  • batch size:图像 256,视频/3D 128

实验结果

图像拼图

基准 基线 +Image Jigsaw 提升
MMVP 54.66 60.66 +6.00
MMStar (细粒度) 59.75 65.81 +6.06
HR-Bench-8K 67.38 71.13 +3.75
VSR (空间关系) 77.68 80.36 +2.68
DA-2K (深度) 54.45 60.35 +5.90
LISA-Grounding 71.89 74.54 +2.65

对比其他后训练方法:ThinkLite-VL 55.33, VL-Cogito 55.33, LLaVA-Critic-R1 53.33(MMVP),Visual Jigsaw 60.66 大幅领先。

视频拼图(32 帧)

基准 基线 +Video Jigsaw 提升
AoTBench 49.48 55.00 +5.52
Vinoground 18.20 21.40 +3.20
VideoMME 60.70 62.37 +1.67
VSI-Bench 35.34 38.47 +3.13

13 个视频基准全部提升。

3D 拼图

基准 基线 +3D Jigsaw 提升
SAT-Real 48.66 64.00 +15.34
DA-2K 54.45 71.56 +17.11
OmniSpatial 42.66 45.99 +3.33
VSI-Bench 37.74 40.64 +2.90

深度理解任务提升最为显著(+15~17%)。

SFT vs RL

Image Jigsaw 的 SFT 变体:MMVP 仅 56.00(vs RL 的 60.66),且在 LISA-Grounding 和 OVD-Eval 上退化——SFT 过拟合拼图任务,RL 的泛化性远优于 SFT

任务难度影响

  • 图像:2×2(4 块)比 3×3(9 块)增益大幅减少
  • 视频:4 段比 6 段增益大幅减少
  • 结论:足够的难度是学习有效表示的前提

个人思考

  1. “拼图即理解”的核心假设极其巧妙:要正确排列 patch,模型必须理解空间布局、物体结构、时间因果和深度关系。
  2. RL » SFT 的发现重要:SFT 学会了”做拼图”但没学会”理解视觉”,RL 通过探索学到了可迁移的视觉能力。
  3. 三模态统一框架是优势:同一个方法论适用于图像、视频、3D——说明排列预测是一种通用的视觉学习信号。
  4. 部分正确奖励是关键工程决策:9 块拼图的全对概率极低,没有部分奖励模型无法获得梯度信号。
  5. 自监督 + 无需标注使方法几乎可以无限扩展——数据不是瓶颈。
← 返回列表