← 返回列表

Fostering Video Reasoning via Next-Event Prediction

作者 Haonan Wang, Hongfu Liu, Xiangyan Liu, Chao Du, Kenji Kawaguchi, Ye Wang, Tianyu Pang

年份 2025

会议/期刊 arXiv 2025

评分 ★ ★ ★ ★ ★

标签视频理解多模态

摘要下一事件预测（NEP）自监督任务增强视频时序推理：从过去帧预测未来事件描述，无需人工标注，时序基准提升 3.8%

论文原文代码仓库

核心思想

提出 Next-Event Prediction (NEP)：一种自监督任务，让多模态大模型从观察到的过去帧预测未见的未来事件。利用未来帧的描述作为监督信号，无需昂贵的人工标注，有效增强模型的时序推理能力。

方法详解

1. 问题建模

给定视频 $V = [v_1, v_2, \ldots, v_T]$，在切分点 $t < T$ 处划分：

过去帧：$V_{\leq t} = [v_1, \ldots, v_t]$（模型可见）
未来帧：$V_{> t} = [v_{t+1}, \ldots, v_T]$（模型不可见）

模型需要从 $V_{\leq t}$ 预测未来事件的文本描述 $Y$。

与其他任务的区别：

传统 Video QA（归纳推理）：从完整视频回答问题
NEP（演绎推理）：从过去推断未来
PEP（溯因推理）：从未来推断过去

2. V1-33K 数据集构建

四阶段流水线：

阶段	内容
1. 事实翻译	VLM 生成详细帧描述
2. 分析	LLM 识别场景并通过因果分析确定最优切分点
3. 分割	在切分点处切分视频
4. 推理与批评	DeepSeek-R1 生成带推理的预测；GPT-4 通过批评验证

数据来源：YouTube, YouCook2, NextQA, Charades, ActivityNet，覆盖 30 秒到 10+ 分钟的多样时长。

3. 训练策略

3.1 模型架构

编码器-解码器架构（LLaVA 风格）：

视觉编码器 $E$：提取帧特征，每个视频默认 32 帧
语言解码器 $D$：cross-attention 到视觉嵌入，通过语言建模损失生成文本

SFT 训练目标（标准自回归交叉熵）：

\[\mathcal{L}_\text{SFT} = -\sum_{j=1}^{|Y|} \log P_\theta(y_j | V_{\leq t}, y_{<j})\]

其中 $V_{\leq t}$ 为过去帧，$Y = (y_1, \ldots, y_{

})$ 为未来事件的文本描述（由未来帧生成）。

3.2 四种训练方法

策略	描述
SFT	标准交叉熵损失，直接模仿地面真值描述
CFT	学习 GPT-4 的批评反馈（”你的预测哪里对/错”）而非直接模仿
Distill	模仿 DeepSeek-R1 的推理轨迹（包含思考过程）
Mix	每个 epoch 等比例混合 SFT + CFT + Distill

CFT 的思路：模型先尝试预测，GPT-4 评判预测质量并给出改进建议，模型学习这些建议——类似”做题 + 批改”的循环。

Distill 的思路：直接学习 DeepSeek-R1 的推理链（含 <think> 标签），而非仅学习最终答案。

3.3 GRPO 强化学习

在 FutureBench 的多选 QA 上训练：

\[\mathcal{L}_\text{GRPO} = -\mathbb{E}_{o \sim \pi_\theta}\left[\hat{A}(o) \cdot \log \pi_\theta(o | V_{\leq t}, q)\right]\]

其中 $\hat{A}(o)$ 为 group-relative 优势估计，$q$ 为问题，奖励为选择正确选项（可验证）。

4. FutureBench 评估基准

1,056 个 QA 对，两类子任务：

外推任务：

1-Hop：单步未来事件预测
2-Hop：连续两步事件
3-Hop：连续三步事件

内插任务：给定部分观察推断非连续未来事件

文本-only 基线（o4-mini）仅 32% 准确率，确认任务需要视觉感知。

实验结果

NEP vs 其他自监督任务

Qwen2.5-VL-7B-Instruct，3K 样本：

任务	通用平均	时序平均
Captioning	60.0	49.7
MCQA	58.5	47.7
OEQA	60.4	51.2
NEP	60.9	53.5

NEP 在时序基准上提升 3.8%，同时保持通用理解能力。

训练策略对比

策略	通用平均	时序平均
Instruct 基线	60.3	49.7
SFT	59.7	52.6
CFT	59.5	51.2
Distill	61.2	51.9
Mix	59.9	53.3

SFT 简单有效；Mix 通过互补监督信号达到最高时序性能。

推理类型对比

类型	TempBench	TempCompass	SeedBench-R1	FutureBench
归纳（Video QA）	36.6	74.0	35.4	58.8
演绎（NEP）	38.6	74.7	39.5	61.3
溯因（PEP）	38.0	66.2	31.2	55.1

演绎推理（NEP）在时序任务上全面优于归纳和溯因推理。

强化学习结果

GRPO 在 2K 多选 QA 对上训练：

配置	通用平均	1-Hop	2-Hop	3-Hop	内插
Instruct	60.3	56.1	57.5	49.8	50.5
NEP+SFT	59.7	67.6	64.2	57.7	59.3
NEP+GRPO	58.2	83.8	81.3	62.7	65.2

GRPO 在 FutureBench 上大幅提升（1-Hop +27.5%），但通用基准略降——存在 reward hacking 风险。

数据缩放

性能在约 5K 样本处达到峰值，超过后反而下降——说明纯 NEP 训练的分布偏移风险。

个人思考

NEP 的任务设计巧妙：利用未来帧作为”免费”监督信号，无需人工标注，天然适合自监督。
演绎推理 > 归纳推理的发现有意义：预测未来比总结过去更能锻炼时序理解——正如人类通过预测来学习因果关系。
SFT 的简单有效值得注意：复杂的 CFT/Distill 并未显著优于简单 SFT，暗示任务设计比训练策略更重要。
GRPO 的 reward hacking是警示：在特定任务上过度优化会牺牲通用能力。
5K 样本的天花板说明纯 NEP 数据的局限——需要与其他任务混合训练。

← 返回列表