Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces
核心思想
多模态大模型(MLLM)能不能像人一样理解 3D 空间?本文通过 VSI-Bench(Visual Spatial Intelligence Benchmark)系统评测,发现:
- 模型展现出初步的空间感知能力,但远低于人类(差 33 个百分点)
- 71% 的错误源于空间推理(而非视觉感知或语言理解)
- Chain-of-Thought 等语言推理技巧反而有害
- 让模型先画”认知地图”可以提升 10% 距离推理准确率
背景知识
什么是视觉空间智能
人类看到一段室内漫游视频后,能自然地形成空间心理模型:
- “沙发在窗户左边”
- “厨房到卧室大约 5 米”
- “我先经过了客厅,再到了厨房”
这种能力被称为视觉空间智能,包含四个维度:
| 维度 | 能力 | 示例 |
|---|---|---|
| 视觉感知 | 识别物体 | “这是一张桌子” |
| 语言智能 | 理解和推理 | “桌子比椅子大” |
| 时间处理 | 理解事件顺序 | “先看到桌子,后看到椅子” |
| 空间推理 | 理解 3D 关系 | “桌子在椅子前方 2 米” |
自我中心 vs 环境中心转换
- 自我中心(Egocentric):从”我”的视角看世界(”桌子在我左边”)
- 环境中心(Allocentric):从上帝视角看世界(”桌子在房间北侧”)
从视频(自我中心)到空间理解(环境中心)需要持续的坐标变换和工作记忆。
方法详解
1. VSI-Bench 数据集构建
1.1 数据来源
288 个真实室内场景视频,来自三个 3D 标注数据集:
- ScanNet:带 3D 重建的室内扫描
- ScanNet++:高质量版本
- ARKitScenes:iPhone LiDAR 扫描
统一分辨率:640×480。
1.2 八大任务
分为三类:
配置类(空间关系):
- 物体计数:场景中有多少把椅子?
- 相对距离:桌子和沙发哪个离门更近?
- 相对方向:从沙发看桌子在什么方向?
- 路径规划:从 A 到 B 的最短路径经过哪些房间?
测量估计类:
- 物体大小:这张桌子大约多大?
- 房间大小:这个房间大约多大?
- 绝对距离:桌子到椅子大约多远?
时空类:
- 出现顺序:视频中先出现了什么物体?
1.3 质量控制
三级质量保证:
- 基于模板的自动生成(7 种任务)+ 人工标注(路径规划)
- 人工迭代过滤低质量视频
- 验证标注、消除歧义、修正模板错误
2. 评估指标
选择题任务:准确率(ACC)
数值回答任务:平均相对准确率(MRA)
\[\text{MRA} = \frac{1}{10} \sum_{\theta \in C} \mathbf{1}\left[\frac{|\hat{y} - y|}{y} < 1 - \theta\right]\]其中 $C = {0.5, 0.55, 0.60, \ldots, 0.95}$。MRA 衡量预测值 $\hat{y}$ 在多个容忍度下的准确性。
3. 认知地图实验
灵感:人类在导航时会在脑中构建空间地图。让模型也这样做会怎样?
方法:让模型在 10×10 网格上预测每个物体的位置,然后基于这个”认知地图”回答距离问题。
\[\text{准确率} = f(\text{物体间距离})\]- 距离 1.0-2.1:64% 准确率
- 距离 8.9-10.0:0% 准确率
结论:模型形成的是局部空间模型的拼接,而非全局统一模型。
实验结果
主要结果
| 模型 | 平均准确率 |
|---|---|
| 人类 | 79% |
| Gemini-1.5 Pro | 45.4% |
| LLaVA-Video-72B | ~40% |
| LLaVA-OneVision-72B | ~40% |
| InternVL2-40B | — |
人类比最好的模型高 33 个百分点。
错误归因分析
对 163 个错误预测进行人工分析:
| 错误类型 | 占比 |
|---|---|
| 空间推理 | 71% |
| 视觉感知 | 16% |
| 语言智能 | 8% |
| 自我中心-环境中心转换 | 5% |
Chain-of-Thought 的反效果
| 方法 | 平均变化 |
|---|---|
| Zero-Shot CoT | -4%(变差) |
| Self-Consistency + CoT | -1.1%(变差) |
| Tree-of-Thoughts | -4%(变差) |
语言推理技巧对空间推理有害——与在 VideoMME 上 +1.6% 的效果形成鲜明对比。
为什么有害:CoT 鼓励模型用语言”推理”空间关系,但空间理解本质上是非语言的——语言中间步骤引入了额外噪声。
认知地图的效果
| 配置 | 相对距离准确率 |
|---|---|
| 无认知地图 | 46.0% |
| 模型生成认知地图 | 56.0%(+10%) |
| 真值认知地图 | 66.0%(+20%) |
消融:网格大小
| 网格 | 模型地图准确率 | 真值地图准确率 |
|---|---|---|
| 10×10 | 56.0% | 66.0% |
| 20×20 | 54.0% | 78.0% |
更精细的网格对真值地图有益,但对模型生成的地图反而略差(模型精度不足以利用更细网格)。
模型能力的影响
| 模型 | 认知地图效果 |
|---|---|
| LLaVA-Video-72B | +8%(正面) |
| LLaVA-Video-7B | 负面(地图质量太差) |
个人思考
- “71% 空间推理错误” 是最重要的发现——说明模型不是”看不见”而是”理解不了空间”,这是根本能力缺失而非数据不足。
- CoT 对空间推理有害挑战了”万物皆可 CoT”的信条——空间思维本质上是非语言的,强迫模型用语言做空间推理反而增加了错误。
- 认知地图的成功暗示了一条前进路径:让模型先建立显式空间表征,再基于表征回答问题——而非直接从像素到答案。
- 局部 vs 全局空间模型的发现很有启发性:模型能理解”附近的物体关系”但不能整合为全局地图——这像是缺少空间工作记忆。
- 基准的长期价值:VSI-Bench 的 8 种任务覆盖了空间智能的多个维度,将成为衡量模型空间理解进步的标准尺度。