Cambrian-S: Towards Spatial Supersensing in Video
核心思想
当前视频多模态大模型(Video MLLM)擅长内容理解,但空间智能(从视频中理解 3D 空间布局)仍然很弱。本文:
- 提出空间超感知(Spatial Supersensing) 的四阶段发展框架
- 创建 VSI-Super 基准,测试超长视频(10-240 分钟)中的空间回忆和持续计数
- 训练 Cambrian-S 模型,在空间认知基准上提升 30%
- 提出预测式感知框架:用”惊讶度”驱动记忆管理
背景知识
空间超感知的四个阶段
| 阶段 | 名称 | 能力 | 示例 |
|---|---|---|---|
| 1 | 语义感知 | 识别物体 | “画面中有一张桌子” |
| 2 | 流式事件认知 | 跟踪事件序列 | “先看到厨房,再看到卧室” |
| 3 | 隐式 3D 空间认知 | 理解空间布局 | “桌子在沙发左边 2 米” |
| 4 | 预测式世界建模 | 预测未见区域 | “转角后应该有一扇门” |
现有模型在阶段 1-2 尚可,阶段 3-4 几乎完全失败。
现有基准的局限
论文通过诊断性实验(4 种输入条件)发现:
| 输入条件 | 含义 |
|---|---|
| 多帧(32 帧均匀采样) | 标准视频输入 |
| 单帧(中间帧) | 仅一张图片 |
| 帧描述(LLM 生成) | 纯文本描述 |
| 盲测(无视觉输入) | 仅靠先验猜测 |
关键发现:VideoMME、MVBench 等热门基准上,”盲测”和”帧描述”的性能与”多帧”差异很小——说明这些基准不真正需要视频理解。只有 VSI-Bench、HourVideo 等才需要真正的视频空间感知。
方法详解
1. VSI-Super 基准设计
1.1 VSI-Super Recall(VSR):长程空间回忆
任务:在室内漫游视频中,AI 编辑工具在不同位置插入”不协调物体”(如卧室里出现一个消防栓),模型需要按顺序回忆所有异常物体及其位置。
设计要点:
- 每个视频 4 个不同位置的异常物体
- 通过拼接多个房间视频创建任意长度流(10-240 分钟)
- 需要多跳推理:先回忆物体 → 再回忆位置 → 按时间排序
1.2 VSI-Super Count(VSC):持续计数
任务:在跨越多个房间/场景的长视频中,累计计数某类物体的总数。
挑战:
- 视角变换 → 同一物体从不同角度出现
- 场景切换 → 需要跨场景累加
- 流式查询 → 在多个时间点分别询问当前累计
评估指标:平均相对准确率(MRA)
\[\text{MRA} = \frac{1}{10} \sum_{\theta \in C} \mathbf{1}\left[\frac{|\hat{y} - y|}{y} < 1 - \theta\right]\]其中 $\theta \in {0.5, 0.55, \ldots, 0.95}$,$\hat{y}$ 是预测,$y$ 是真值。
2. Cambrian-S 模型训练
2.1 数据集:VSI-590K
从多个 3D 标注数据集构建空间视频指令微调语料:
- 3D 标注真实视频:ScanNet、ScanNet++、ARKitScenes
- 3D 标注模拟视频和图像
- 无标注网络爬取真实视频
2.2 四阶段训练
| 阶段 | 内容 | 数据 |
|---|---|---|
| 1 | 视觉-语言对齐 | 基础对齐数据 |
| 2 | 图像指令微调 | 单图空间推理 |
| 3 | 通用视频指令微调 | 时间理解 |
| 4 | 空间视频指令微调 | VSI-590K |
3. 预测式感知框架
当视频长度达到数小时,即使是 Gemini-2.5-Flash(百万 token 上下文)也会超出上下文限制。本文提出不依赖长上下文的解决方案:
3.1 潜在帧预测(LFP)
自监督地预测下一帧的潜在表征。预测误差定义为”惊讶度”:
- 高惊讶度 → 出现意外/新事件
- 低惊讶度 → 可预测的延续
3.2 惊讶驱动记忆管理(用于 VSR)
流式输入视频帧:
for 每一帧:
1. 预测当前帧的潜在表征
2. 计算预测误差(惊讶度)
3. if 惊讶度 > 阈值:
将该帧存入长期记忆(压缩存储)
4. else:
丢弃(可预测的帧不值得记忆)
查询时:
从长期记忆中检索相关帧进行回答
直觉:人类也是对”意外”事件记忆深刻——预测式感知模拟了这一认知机制。
3.3 惊讶驱动事件分割(用于 VSC)
用惊讶度检测场景边界 → 将长视频分割为短片段 → 分而治之地计数 → 汇总。
实验结果
Gemini-2.5-Flash 在 VSI-Super 上的表现
| 基准 | 分数 |
|---|---|
| VideoMME | 81.5 |
| VideoMMMU | 79.2 |
| VSI-Bench | 45.7 |
| VSR(60 分钟) | 41.5 |
| VSR(120 分钟) | 超出上下文 |
| VSC(60 分钟) | 10.9 |
| VSC(120 分钟) | 超出上下文 |
即使百万 token 上下文的 Gemini,在 2 小时视频上也直接溢出。
Cambrian-S 空间认知改善
- VSI-Bench 上 +30% 绝对提升
- 标准基准上保持竞争力
- 但在 VSI-Super 上仍有显著差距 → 说明纯扩大数据不够
预测式感知的效果
- VSR:惊讶驱动记忆管理大幅优于长上下文基线
- VSC:惊讶驱动事件分割改善持续计数性能
- 关键优势:不依赖上下文长度,理论上可处理无限长视频
个人思考
- 四阶段框架提供了清晰的研究路线图——当前模型在阶段 1-2,社区应该朝阶段 3-4 努力。
- “盲测诊断”方法极其有价值:揭示了许多热门基准实际上不需要视频理解——这应该成为新基准设计的标准检验。
- 预测式感知的灵感来自认知科学的”预测编码”理论——大脑不是被动接收信息,而是主动预测 → 只编码预测误差 → 这也正是高效记忆的机制。
- VSI-Super 的实用价值:机器人导航、安防监控等场景都需要从长视频中理解空间——这个基准直接对标实际需求。
- 局限性:惊讶度阈值的设定目前依赖经验——自适应阈值机制是明显的改进方向。