← 返回列表

Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces

作者 Jihan Yang, Shusheng Yang, Anjali W. Gupta, Rilyn Han, Li Fei-Fei, Saining Xie
年份 2024
会议/期刊 arXiv 2024
评分
标签 多模态 空间智能 基准测试
摘要 VSI-Bench:5000+ QA 对评测多模态模型的视觉空间智能,发现空间推理是主要瓶颈(71% 错误),语言推理技巧反而有害,认知地图可改善距离推理

核心思想

多模态大模型(MLLM)能不能像人一样理解 3D 空间?本文通过 VSI-Bench(Visual Spatial Intelligence Benchmark)系统评测,发现:

  1. 模型展现出初步的空间感知能力,但远低于人类(差 33 个百分点)
  2. 71% 的错误源于空间推理(而非视觉感知或语言理解)
  3. Chain-of-Thought 等语言推理技巧反而有害
  4. 让模型先画”认知地图”可以提升 10% 距离推理准确率

背景知识

什么是视觉空间智能

人类看到一段室内漫游视频后,能自然地形成空间心理模型:

  • “沙发在窗户左边”
  • “厨房到卧室大约 5 米”
  • “我先经过了客厅,再到了厨房”

这种能力被称为视觉空间智能,包含四个维度:

维度 能力 示例
视觉感知 识别物体 “这是一张桌子”
语言智能 理解和推理 “桌子比椅子大”
时间处理 理解事件顺序 “先看到桌子,后看到椅子”
空间推理 理解 3D 关系 “桌子在椅子前方 2 米”

自我中心 vs 环境中心转换

  • 自我中心(Egocentric):从”我”的视角看世界(”桌子在我左边”)
  • 环境中心(Allocentric):从上帝视角看世界(”桌子在房间北侧”)

从视频(自我中心)到空间理解(环境中心)需要持续的坐标变换工作记忆

方法详解

1. VSI-Bench 数据集构建

1.1 数据来源

288 个真实室内场景视频,来自三个 3D 标注数据集:

  • ScanNet:带 3D 重建的室内扫描
  • ScanNet++:高质量版本
  • ARKitScenes:iPhone LiDAR 扫描

统一分辨率:640×480。

1.2 八大任务

分为三类:

配置类(空间关系):

  • 物体计数:场景中有多少把椅子?
  • 相对距离:桌子和沙发哪个离门更近?
  • 相对方向:从沙发看桌子在什么方向?
  • 路径规划:从 A 到 B 的最短路径经过哪些房间?

测量估计类:

  • 物体大小:这张桌子大约多大?
  • 房间大小:这个房间大约多大?
  • 绝对距离:桌子到椅子大约多远?

时空类:

  • 出现顺序:视频中先出现了什么物体?

1.3 质量控制

三级质量保证:

  1. 基于模板的自动生成(7 种任务)+ 人工标注(路径规划)
  2. 人工迭代过滤低质量视频
  3. 验证标注、消除歧义、修正模板错误

2. 评估指标

选择题任务:准确率(ACC)

数值回答任务:平均相对准确率(MRA)

\[\text{MRA} = \frac{1}{10} \sum_{\theta \in C} \mathbf{1}\left[\frac{|\hat{y} - y|}{y} < 1 - \theta\right]\]

其中 $C = {0.5, 0.55, 0.60, \ldots, 0.95}$。MRA 衡量预测值 $\hat{y}$ 在多个容忍度下的准确性。

3. 认知地图实验

灵感:人类在导航时会在脑中构建空间地图。让模型也这样做会怎样?

方法:让模型在 10×10 网格上预测每个物体的位置,然后基于这个”认知地图”回答距离问题。

\[\text{准确率} = f(\text{物体间距离})\]
  • 距离 1.0-2.1:64% 准确率
  • 距离 8.9-10.0:0% 准确率

结论:模型形成的是局部空间模型的拼接,而非全局统一模型

实验结果

主要结果

模型 平均准确率
人类 79%
Gemini-1.5 Pro 45.4%
LLaVA-Video-72B ~40%
LLaVA-OneVision-72B ~40%
InternVL2-40B

人类比最好的模型高 33 个百分点

错误归因分析

对 163 个错误预测进行人工分析:

错误类型 占比
空间推理 71%
视觉感知 16%
语言智能 8%
自我中心-环境中心转换 5%

Chain-of-Thought 的反效果

方法 平均变化
Zero-Shot CoT -4%(变差)
Self-Consistency + CoT -1.1%(变差)
Tree-of-Thoughts -4%(变差)

语言推理技巧对空间推理有害——与在 VideoMME 上 +1.6% 的效果形成鲜明对比。

为什么有害:CoT 鼓励模型用语言”推理”空间关系,但空间理解本质上是非语言的——语言中间步骤引入了额外噪声。

认知地图的效果

配置 相对距离准确率
无认知地图 46.0%
模型生成认知地图 56.0%(+10%)
真值认知地图 66.0%(+20%)

消融:网格大小

网格 模型地图准确率 真值地图准确率
10×10 56.0% 66.0%
20×20 54.0% 78.0%

更精细的网格对真值地图有益,但对模型生成的地图反而略差(模型精度不足以利用更细网格)。

模型能力的影响

模型 认知地图效果
LLaVA-Video-72B +8%(正面)
LLaVA-Video-7B 负面(地图质量太差)

个人思考

  1. “71% 空间推理错误” 是最重要的发现——说明模型不是”看不见”而是”理解不了空间”,这是根本能力缺失而非数据不足。
  2. CoT 对空间推理有害挑战了”万物皆可 CoT”的信条——空间思维本质上是非语言的,强迫模型用语言做空间推理反而增加了错误。
  3. 认知地图的成功暗示了一条前进路径:让模型先建立显式空间表征,再基于表征回答问题——而非直接从像素到答案。
  4. 局部 vs 全局空间模型的发现很有启发性:模型能理解”附近的物体关系”但不能整合为全局地图——这像是缺少空间工作记忆。
  5. 基准的长期价值:VSI-Bench 的 8 种任务覆盖了空间智能的多个维度,将成为衡量模型空间理解进步的标准尺度。
← 返回列表