StreamingVLM: Real-Time Understanding for Infinite Video Streams

作者 Ruyi Xu, Guangxuan Xiao, Yukang Chen, Liuning He, Kelly Peng, Yao Lu, Song Han

年份 2025

会议/期刊 arXiv 2025

评分 ★ ★ ★ ★ ★

标签视频理解多模态

摘要统一训练-推理框架实现无限视频流实时理解：流式 KV cache 管理 + 连续 RoPE + 重叠块训练，8 FPS 实时解说

论文原文代码仓库

核心思想

如何让视觉语言模型（VLM）理解无限长的视频流，同时保持低延迟和固定内存？本文提出 StreamingVLM：

维护紧凑的 KV cache，包含三种保留机制：

非对称保留策略：视觉 token 先被驱逐，文本 token 保留更久——反映了视频理解中信息不对称的特点（文本承载更多语义信息）。

问题：当 token 被驱逐时，后续 token 的位置编号不变 → 位置值可能超出训练范围 → 模型崩溃。

解决方案：token 被驱逐后，后续 token 索引左移以保持与保留 token 的数值连续性。

\[\text{驱逐后位置} = \text{连续重编号}(\text{保留 token 集合})\]

对于 3D 视觉嵌入（时间、高度、宽度），索引按交错的视觉-文本布局组装。

效果验证：

RoPE 方案	Win Rate vs GPT-4o
Native RoPE	60.32%
Contiguous RoPE	99.12%

差距巨大：连续 RoPE 使 win rate 从 60% 跃升至 99%。

直接在超长序列上训练不可行（$O(n^2)$ 成本）。解决方案：

为什么有效？ 全注意力训练近似于推理时的流式注意力模式，且重叠保证了时间连续性。

视觉和文本 token 以 1 秒间隔交错排列。损失仅在与逐秒解说对齐的文本位置计算；静默秒使用占位符 “…“。

步骤	内容
原始数据	2,449 场完整比赛，5 种运动，6000+ 小时
ASR 提取	WhisperX 提取语音转文字
GPT-5 清洗	保留 46.32%，编辑 37.89%，删除 15.79%
最终数据	525K 重叠 SFT + 526K Live-WhisperX + 14K 高质量退火

对比	StreamingVLM Win Rate
vs GPT-4o mini	66.18%
vs LiveCC-7B (infinite)	99.12%

基准	Qwen-2.5-VL-7B	StreamingVLM	提升
MVBench	67.34%	69.16%	+1.8
LongVideoBench	54.70%	59.00%	+4.3
OVOBench Realtime	56.00%	61.96%	+6.0