← 返回列表

Visual Jigsaw Post-Training Improves MLLMs

作者 Penghao Wu, Yushan Zhang, Haiwen Diao, Bo Li, Lewei Lu, Ziwei Liu

年份 2025

会议/期刊 arXiv 2025

评分 ★ ★ ★ ★ ★

标签多模态强化学习

摘要自监督视觉拼图后训练：将图像/视频/3D 打乱为 patch 让模型预测排列顺序，GRPO 训练提升细粒度感知，MMVP +6.0%

论文原文代码仓库

核心思想

现有 MLLM 后训练主要增强文本推理能力，视觉感知能力被忽视。本文提出 Visual Jigsaw：将视觉输入打乱为 patch/clip/point，让模型预测正确排列——这是一种自监督、无需标注的视觉学习任务，天然适配可验证奖励的 RL 训练。

覆盖三种模态：图像（空间排列）、视频（时序排列）、3D（深度排列）。

方法详解

1. 奖励设计

分级奖励函数衡量排列准确度：

\[R(o, g) = \begin{cases} 1, & \text{if } o = g \\ \gamma \cdot \frac{1}{K}\sum_{i=1}^K \mathbf{1}[o_i = g_i], & \text{if ValidPerm}(o) \wedge o \neq g \\ 0, & \text{otherwise} \end{cases}\]

其中：

$o$：模型预测的排列，$g$：真实排列
$K$：拼图块数
$\gamma = 0.2$：部分正确的折扣因子
额外格式奖励：正确使用 <think></think> 和 <answer></answer> 标签得 0.2

三级奖励的直觉：

完全正确 (1.0)：最大奖励
格式正确 + 部分正确 ($\gamma \cdot \text{accuracy}$)：鼓励渐进学习
格式错误 (0.0)：零奖励

部分正确奖励至关重要——消融实验表明，仅用二元奖励（对/错）时，模型在困难任务上无法启动学习。

2. 图像拼图

输入图像 $I \in \mathbb{R}^{H \times W \times 3}$ 切割为 $m \times n$ 网格：

\[\mathcal{P} = [p_1, p_2, \ldots, p_K], \quad p_i \in \mathbb{R}^{H/m \times W/n \times 3}\]

随机排列 $\pi: {1,\ldots,K} \to {1,\ldots,K}$，打乱后：

\[\mathcal{P}_\pi = [p_{\pi^{-1}(1)}, p_{\pi^{-1}(2)}, \ldots, p_{\pi^{-1}(K)}]\]

目标：预测排列 $[\pi(1), \pi(2), \ldots, \pi(K)]$（即每个位置的原始编号）。

配置：$m = n = 3$（9 块），COCO 118K 图像，最小尺寸 84 像素。

3. 视频拼图

视频 $V \in \mathbb{R}^{T \times H \times W \times 3}$ 切为 $K$ 段：

\[\mathcal{V} = [v_1, v_2, \ldots, v_K], \quad v_i \in \mathbb{R}^{T/K \times H \times W \times 3}\]

打乱后让模型恢复时间顺序。

配置：$K = 6$ 段，裁剪每段边界 5% 帧（防止利用过渡帧），LLaVA-Video 100K 视频，最短 24 秒。

4. 3D 拼图

RGB-D 图像中标记 $K$ 个点，按深度排序后打乱：

\[d_{p_1} < d_{p_2} < \cdots < d_{p_K}\]

模型需恢复从近到远的深度顺序。

配置：$K = 6$ 点，ScanNet 300K 样本，深度范围 0.1-10m，最小像素间距 40，最小深度差 0.2m。

5. 训练配置

基座模型：Qwen2.5-VL-7B-Instruct
算法：GRPO（无 KL 正则，无熵损失）
每提示采样 16 个回复
学习率 $10^{-6}$，温度 1.0
训练步数：图像/视频 1000 步，3D 800 步
batch size：图像 256，视频/3D 128

实验结果

图像拼图

基准	基线	+Image Jigsaw	提升
MMVP	54.66	60.66	+6.00
MMStar (细粒度)	59.75	65.81	+6.06
HR-Bench-8K	67.38	71.13	+3.75
VSR (空间关系)	77.68	80.36	+2.68
DA-2K (深度)	54.45	60.35	+5.90
LISA-Grounding	71.89	74.54	+2.65

对比其他后训练方法：ThinkLite-VL 55.33, VL-Cogito 55.33, LLaVA-Critic-R1 53.33（MMVP），Visual Jigsaw 60.66 大幅领先。

视频拼图（32 帧）

基准	基线	+Video Jigsaw	提升
AoTBench	49.48	55.00	+5.52
Vinoground	18.20	21.40	+3.20
VideoMME	60.70	62.37	+1.67
VSI-Bench	35.34	38.47	+3.13

13 个视频基准全部提升。

3D 拼图

基准	基线	+3D Jigsaw	提升
SAT-Real	48.66	64.00	+15.34
DA-2K	54.45	71.56	+17.11
OmniSpatial	42.66	45.99	+3.33
VSI-Bench	37.74	40.64	+2.90

深度理解任务提升最为显著（+15~17%）。

SFT vs RL

Image Jigsaw 的 SFT 变体：MMVP 仅 56.00（vs RL 的 60.66），且在 LISA-Grounding 和 OVD-Eval 上退化——SFT 过拟合拼图任务，RL 的泛化性远优于 SFT。

任务难度影响

图像：2×2（4 块）比 3×3（9 块）增益大幅减少
视频：4 段比 6 段增益大幅减少
结论：足够的难度是学习有效表示的前提

个人思考

“拼图即理解”的核心假设极其巧妙：要正确排列 patch，模型必须理解空间布局、物体结构、时间因果和深度关系。
RL » SFT 的发现重要：SFT 学会了”做拼图”但没学会”理解视觉”，RL 通过探索学到了可迁移的视觉能力。
三模态统一框架是优势：同一个方法论适用于图像、视频、3D——说明排列预测是一种通用的视觉学习信号。
部分正确奖励是关键工程决策：9 块拼图的全对概率极低，没有部分奖励模型无法获得梯度信号。
自监督 + 无需标注使方法几乎可以无限扩展——数据不是瓶颈。

← 返回列表