← 返回列表

Fostering Video Reasoning via Next-Event Prediction

作者 Haonan Wang, Hongfu Liu, Xiangyan Liu, Chao Du, Kenji Kawaguchi, Ye Wang, Tianyu Pang
年份 2025
会议/期刊 arXiv 2025
评分
标签 视频理解 多模态
摘要 下一事件预测(NEP)自监督任务增强视频时序推理:从过去帧预测未来事件描述,无需人工标注,时序基准提升 3.8%

核心思想

提出 Next-Event Prediction (NEP):一种自监督任务,让多模态大模型从观察到的过去帧预测未见的未来事件。利用未来帧的描述作为监督信号,无需昂贵的人工标注,有效增强模型的时序推理能力。

方法详解

1. 问题建模

给定视频 $V = [v_1, v_2, \ldots, v_T]$,在切分点 $t < T$ 处划分:

  • 过去帧:$V_{\leq t} = [v_1, \ldots, v_t]$(模型可见)
  • 未来帧:$V_{> t} = [v_{t+1}, \ldots, v_T]$(模型不可见)

模型需要从 $V_{\leq t}$ 预测未来事件的文本描述 $Y$。

与其他任务的区别

  • 传统 Video QA(归纳推理):从完整视频回答问题
  • NEP(演绎推理):从过去推断未来
  • PEP(溯因推理):从未来推断过去

2. V1-33K 数据集构建

四阶段流水线:

阶段 内容
1. 事实翻译 VLM 生成详细帧描述
2. 分析 LLM 识别场景并通过因果分析确定最优切分点
3. 分割 在切分点处切分视频
4. 推理与批评 DeepSeek-R1 生成带推理的预测;GPT-4 通过批评验证

数据来源:YouTube, YouCook2, NextQA, Charades, ActivityNet,覆盖 30 秒到 10+ 分钟的多样时长。

3. 训练策略

3.1 模型架构

编码器-解码器架构(LLaVA 风格):

  • 视觉编码器 $E$:提取帧特征,每个视频默认 32 帧
  • 语言解码器 $D$:cross-attention 到视觉嵌入,通过语言建模损失生成文本

SFT 训练目标(标准自回归交叉熵):

\[\mathcal{L}_\text{SFT} = -\sum_{j=1}^{|Y|} \log P_\theta(y_j | V_{\leq t}, y_{<j})\]
其中 $V_{\leq t}$ 为过去帧,$Y = (y_1, \ldots, y_{ Y })$ 为未来事件的文本描述(由未来帧生成)。

3.2 四种训练方法

策略 描述
SFT 标准交叉熵损失,直接模仿地面真值描述
CFT 学习 GPT-4 的批评反馈(”你的预测哪里对/错”)而非直接模仿
Distill 模仿 DeepSeek-R1 的推理轨迹(包含思考过程)
Mix 每个 epoch 等比例混合 SFT + CFT + Distill

CFT 的思路:模型先尝试预测,GPT-4 评判预测质量并给出改进建议,模型学习这些建议——类似”做题 + 批改”的循环。

Distill 的思路:直接学习 DeepSeek-R1 的推理链(含 <think> 标签),而非仅学习最终答案。

3.3 GRPO 强化学习

在 FutureBench 的多选 QA 上训练:

\[\mathcal{L}_\text{GRPO} = -\mathbb{E}_{o \sim \pi_\theta}\left[\hat{A}(o) \cdot \log \pi_\theta(o | V_{\leq t}, q)\right]\]

其中 $\hat{A}(o)$ 为 group-relative 优势估计,$q$ 为问题,奖励为选择正确选项(可验证)。

4. FutureBench 评估基准

1,056 个 QA 对,两类子任务:

外推任务

  • 1-Hop:单步未来事件预测
  • 2-Hop:连续两步事件
  • 3-Hop:连续三步事件

内插任务:给定部分观察推断非连续未来事件

文本-only 基线(o4-mini)仅 32% 准确率,确认任务需要视觉感知。

实验结果

NEP vs 其他自监督任务

Qwen2.5-VL-7B-Instruct,3K 样本:

任务 通用平均 时序平均
Captioning 60.0 49.7
MCQA 58.5 47.7
OEQA 60.4 51.2
NEP 60.9 53.5

NEP 在时序基准上提升 3.8%,同时保持通用理解能力。

训练策略对比

策略 通用平均 时序平均
Instruct 基线 60.3 49.7
SFT 59.7 52.6
CFT 59.5 51.2
Distill 61.2 51.9
Mix 59.9 53.3

SFT 简单有效;Mix 通过互补监督信号达到最高时序性能。

推理类型对比

类型 TempBench TempCompass SeedBench-R1 FutureBench
归纳(Video QA) 36.6 74.0 35.4 58.8
演绎(NEP) 38.6 74.7 39.5 61.3
溯因(PEP) 38.0 66.2 31.2 55.1

演绎推理(NEP)在时序任务上全面优于归纳和溯因推理

强化学习结果

GRPO 在 2K 多选 QA 对上训练:

配置 通用平均 1-Hop 2-Hop 3-Hop 内插
Instruct 60.3 56.1 57.5 49.8 50.5
NEP+SFT 59.7 67.6 64.2 57.7 59.3
NEP+GRPO 58.2 83.8 81.3 62.7 65.2

GRPO 在 FutureBench 上大幅提升(1-Hop +27.5%),但通用基准略降——存在 reward hacking 风险。

数据缩放

性能在约 5K 样本处达到峰值,超过后反而下降——说明纯 NEP 训练的分布偏移风险。

个人思考

  1. NEP 的任务设计巧妙:利用未来帧作为”免费”监督信号,无需人工标注,天然适合自监督。
  2. 演绎推理 > 归纳推理的发现有意义:预测未来比总结过去更能锻炼时序理解——正如人类通过预测来学习因果关系。
  3. SFT 的简单有效值得注意:复杂的 CFT/Distill 并未显著优于简单 SFT,暗示任务设计比训练策略更重要。
  4. GRPO 的 reward hacking是警示:在特定任务上过度优化会牺牲通用能力。
  5. 5K 样本的天花板说明纯 NEP 数据的局限——需要与其他任务混合训练。
← 返回列表