Fostering Video Reasoning via Next-Event Prediction
核心思想
提出 Next-Event Prediction (NEP):一种自监督任务,让多模态大模型从观察到的过去帧预测未见的未来事件。利用未来帧的描述作为监督信号,无需昂贵的人工标注,有效增强模型的时序推理能力。
方法详解
1. 问题建模
给定视频 $V = [v_1, v_2, \ldots, v_T]$,在切分点 $t < T$ 处划分:
- 过去帧:$V_{\leq t} = [v_1, \ldots, v_t]$(模型可见)
- 未来帧:$V_{> t} = [v_{t+1}, \ldots, v_T]$(模型不可见)
模型需要从 $V_{\leq t}$ 预测未来事件的文本描述 $Y$。
与其他任务的区别:
- 传统 Video QA(归纳推理):从完整视频回答问题
- NEP(演绎推理):从过去推断未来
- PEP(溯因推理):从未来推断过去
2. V1-33K 数据集构建
四阶段流水线:
| 阶段 | 内容 |
|---|---|
| 1. 事实翻译 | VLM 生成详细帧描述 |
| 2. 分析 | LLM 识别场景并通过因果分析确定最优切分点 |
| 3. 分割 | 在切分点处切分视频 |
| 4. 推理与批评 | DeepSeek-R1 生成带推理的预测;GPT-4 通过批评验证 |
数据来源:YouTube, YouCook2, NextQA, Charades, ActivityNet,覆盖 30 秒到 10+ 分钟的多样时长。
3. 训练策略
3.1 模型架构
编码器-解码器架构(LLaVA 风格):
- 视觉编码器 $E$:提取帧特征,每个视频默认 32 帧
- 语言解码器 $D$:cross-attention 到视觉嵌入,通过语言建模损失生成文本
SFT 训练目标(标准自回归交叉熵):
\[\mathcal{L}_\text{SFT} = -\sum_{j=1}^{|Y|} \log P_\theta(y_j | V_{\leq t}, y_{<j})\]| 其中 $V_{\leq t}$ 为过去帧,$Y = (y_1, \ldots, y_{ | Y | })$ 为未来事件的文本描述(由未来帧生成)。 |
3.2 四种训练方法
| 策略 | 描述 |
|---|---|
| SFT | 标准交叉熵损失,直接模仿地面真值描述 |
| CFT | 学习 GPT-4 的批评反馈(”你的预测哪里对/错”)而非直接模仿 |
| Distill | 模仿 DeepSeek-R1 的推理轨迹(包含思考过程) |
| Mix | 每个 epoch 等比例混合 SFT + CFT + Distill |
CFT 的思路:模型先尝试预测,GPT-4 评判预测质量并给出改进建议,模型学习这些建议——类似”做题 + 批改”的循环。
Distill 的思路:直接学习 DeepSeek-R1 的推理链(含 <think> 标签),而非仅学习最终答案。
3.3 GRPO 强化学习
在 FutureBench 的多选 QA 上训练:
\[\mathcal{L}_\text{GRPO} = -\mathbb{E}_{o \sim \pi_\theta}\left[\hat{A}(o) \cdot \log \pi_\theta(o | V_{\leq t}, q)\right]\]其中 $\hat{A}(o)$ 为 group-relative 优势估计,$q$ 为问题,奖励为选择正确选项(可验证)。
4. FutureBench 评估基准
1,056 个 QA 对,两类子任务:
外推任务:
- 1-Hop:单步未来事件预测
- 2-Hop:连续两步事件
- 3-Hop:连续三步事件
内插任务:给定部分观察推断非连续未来事件
文本-only 基线(o4-mini)仅 32% 准确率,确认任务需要视觉感知。
实验结果
NEP vs 其他自监督任务
Qwen2.5-VL-7B-Instruct,3K 样本:
| 任务 | 通用平均 | 时序平均 |
|---|---|---|
| Captioning | 60.0 | 49.7 |
| MCQA | 58.5 | 47.7 |
| OEQA | 60.4 | 51.2 |
| NEP | 60.9 | 53.5 |
NEP 在时序基准上提升 3.8%,同时保持通用理解能力。
训练策略对比
| 策略 | 通用平均 | 时序平均 |
|---|---|---|
| Instruct 基线 | 60.3 | 49.7 |
| SFT | 59.7 | 52.6 |
| CFT | 59.5 | 51.2 |
| Distill | 61.2 | 51.9 |
| Mix | 59.9 | 53.3 |
SFT 简单有效;Mix 通过互补监督信号达到最高时序性能。
推理类型对比
| 类型 | TempBench | TempCompass | SeedBench-R1 | FutureBench |
|---|---|---|---|---|
| 归纳(Video QA) | 36.6 | 74.0 | 35.4 | 58.8 |
| 演绎(NEP) | 38.6 | 74.7 | 39.5 | 61.3 |
| 溯因(PEP) | 38.0 | 66.2 | 31.2 | 55.1 |
演绎推理(NEP)在时序任务上全面优于归纳和溯因推理。
强化学习结果
GRPO 在 2K 多选 QA 对上训练:
| 配置 | 通用平均 | 1-Hop | 2-Hop | 3-Hop | 内插 |
|---|---|---|---|---|---|
| Instruct | 60.3 | 56.1 | 57.5 | 49.8 | 50.5 |
| NEP+SFT | 59.7 | 67.6 | 64.2 | 57.7 | 59.3 |
| NEP+GRPO | 58.2 | 83.8 | 81.3 | 62.7 | 65.2 |
GRPO 在 FutureBench 上大幅提升(1-Hop +27.5%),但通用基准略降——存在 reward hacking 风险。
数据缩放
性能在约 5K 样本处达到峰值,超过后反而下降——说明纯 NEP 训练的分布偏移风险。
个人思考
- NEP 的任务设计巧妙:利用未来帧作为”免费”监督信号,无需人工标注,天然适合自监督。
- 演绎推理 > 归纳推理的发现有意义:预测未来比总结过去更能锻炼时序理解——正如人类通过预测来学习因果关系。
- SFT 的简单有效值得注意:复杂的 CFT/Distill 并未显著优于简单 SFT,暗示任务设计比训练策略更重要。
- GRPO 的 reward hacking是警示:在特定任务上过度优化会牺牲通用能力。
- 5K 样本的天花板说明纯 NEP 数据的局限——需要与其他任务混合训练。