← 返回列表

Cambrian-S: Towards Spatial Supersensing in Video

作者 Shusheng Yang, Jihan Yang, Pinzhi Huang, Ellis Brown, Zihao Yang, Yue Yu, Shengbang Tong, Zihan Zheng, Yifan Xu, Muhan Wang, Daohan Lu, Rob Fergus, Yann LeCun, Li Fei-Fei, Saining Xie
年份 2024
会议/期刊 arXiv 2024
评分
标签 多模态 视频理解 空间智能
摘要 提出空间超感知四阶段发展框架 + VSI-Super 基准(长程回忆/持续计数),训练 Cambrian-S 在 VSI-Bench 提升 30%,并通过预测式感知(惊讶驱动记忆)应对超长视频

核心思想

当前视频多模态大模型(Video MLLM)擅长内容理解,但空间智能(从视频中理解 3D 空间布局)仍然很弱。本文:

  1. 提出空间超感知(Spatial Supersensing) 的四阶段发展框架
  2. 创建 VSI-Super 基准,测试超长视频(10-240 分钟)中的空间回忆和持续计数
  3. 训练 Cambrian-S 模型,在空间认知基准上提升 30%
  4. 提出预测式感知框架:用”惊讶度”驱动记忆管理

背景知识

空间超感知的四个阶段

阶段 名称 能力 示例
1 语义感知 识别物体 “画面中有一张桌子”
2 流式事件认知 跟踪事件序列 “先看到厨房,再看到卧室”
3 隐式 3D 空间认知 理解空间布局 “桌子在沙发左边 2 米”
4 预测式世界建模 预测未见区域 “转角后应该有一扇门”

现有模型在阶段 1-2 尚可,阶段 3-4 几乎完全失败

现有基准的局限

论文通过诊断性实验(4 种输入条件)发现:

输入条件 含义
多帧(32 帧均匀采样) 标准视频输入
单帧(中间帧) 仅一张图片
帧描述(LLM 生成) 纯文本描述
盲测(无视觉输入) 仅靠先验猜测

关键发现:VideoMME、MVBench 等热门基准上,”盲测”和”帧描述”的性能与”多帧”差异很小——说明这些基准不真正需要视频理解。只有 VSI-Bench、HourVideo 等才需要真正的视频空间感知。

方法详解

1. VSI-Super 基准设计

1.1 VSI-Super Recall(VSR):长程空间回忆

任务:在室内漫游视频中,AI 编辑工具在不同位置插入”不协调物体”(如卧室里出现一个消防栓),模型需要按顺序回忆所有异常物体及其位置

设计要点:

  • 每个视频 4 个不同位置的异常物体
  • 通过拼接多个房间视频创建任意长度流(10-240 分钟)
  • 需要多跳推理:先回忆物体 → 再回忆位置 → 按时间排序

1.2 VSI-Super Count(VSC):持续计数

任务:在跨越多个房间/场景的长视频中,累计计数某类物体的总数。

挑战:

  • 视角变换 → 同一物体从不同角度出现
  • 场景切换 → 需要跨场景累加
  • 流式查询 → 在多个时间点分别询问当前累计

评估指标:平均相对准确率(MRA)

\[\text{MRA} = \frac{1}{10} \sum_{\theta \in C} \mathbf{1}\left[\frac{|\hat{y} - y|}{y} < 1 - \theta\right]\]

其中 $\theta \in {0.5, 0.55, \ldots, 0.95}$,$\hat{y}$ 是预测,$y$ 是真值。

2. Cambrian-S 模型训练

2.1 数据集:VSI-590K

从多个 3D 标注数据集构建空间视频指令微调语料:

  • 3D 标注真实视频:ScanNet、ScanNet++、ARKitScenes
  • 3D 标注模拟视频和图像
  • 无标注网络爬取真实视频

2.2 四阶段训练

阶段 内容 数据
1 视觉-语言对齐 基础对齐数据
2 图像指令微调 单图空间推理
3 通用视频指令微调 时间理解
4 空间视频指令微调 VSI-590K

3. 预测式感知框架

当视频长度达到数小时,即使是 Gemini-2.5-Flash(百万 token 上下文)也会超出上下文限制。本文提出不依赖长上下文的解决方案:

3.1 潜在帧预测(LFP)

自监督地预测下一帧的潜在表征。预测误差定义为”惊讶度”:

  • 高惊讶度 → 出现意外/新事件
  • 低惊讶度 → 可预测的延续

3.2 惊讶驱动记忆管理(用于 VSR)

流式输入视频帧:
for 每一帧:
    1. 预测当前帧的潜在表征
    2. 计算预测误差(惊讶度)
    3. if 惊讶度 > 阈值:
        将该帧存入长期记忆(压缩存储)
    4. else:
        丢弃(可预测的帧不值得记忆)
查询时:
    从长期记忆中检索相关帧进行回答

直觉:人类也是对”意外”事件记忆深刻——预测式感知模拟了这一认知机制。

3.3 惊讶驱动事件分割(用于 VSC)

用惊讶度检测场景边界 → 将长视频分割为短片段 → 分而治之地计数 → 汇总。

实验结果

Gemini-2.5-Flash 在 VSI-Super 上的表现

基准 分数
VideoMME 81.5
VideoMMMU 79.2
VSI-Bench 45.7
VSR(60 分钟) 41.5
VSR(120 分钟) 超出上下文
VSC(60 分钟) 10.9
VSC(120 分钟) 超出上下文

即使百万 token 上下文的 Gemini,在 2 小时视频上也直接溢出

Cambrian-S 空间认知改善

  • VSI-Bench 上 +30% 绝对提升
  • 标准基准上保持竞争力
  • 但在 VSI-Super 上仍有显著差距 → 说明纯扩大数据不够

预测式感知的效果

  • VSR:惊讶驱动记忆管理大幅优于长上下文基线
  • VSC:惊讶驱动事件分割改善持续计数性能
  • 关键优势:不依赖上下文长度,理论上可处理无限长视频

个人思考

  1. 四阶段框架提供了清晰的研究路线图——当前模型在阶段 1-2,社区应该朝阶段 3-4 努力。
  2. “盲测诊断”方法极其有价值:揭示了许多热门基准实际上不需要视频理解——这应该成为新基准设计的标准检验。
  3. 预测式感知的灵感来自认知科学的”预测编码”理论——大脑不是被动接收信息,而是主动预测 → 只编码预测误差 → 这也正是高效记忆的机制。
  4. VSI-Super 的实用价值:机器人导航、安防监控等场景都需要从长视频中理解空间——这个基准直接对标实际需求。
  5. 局限性:惊讶度阈值的设定目前依赖经验——自适应阈值机制是明显的改进方向。
← 返回列表