← 返回列表

Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces

作者 Jihan Yang, Shusheng Yang, Anjali W. Gupta, Rilyn Han, Li Fei-Fei, Saining Xie

年份 2024

会议/期刊 arXiv 2024

评分 ★ ★ ★ ★ ★

标签多模态空间智能基准测试

摘要 VSI-Bench：5000+ QA 对评测多模态模型的视觉空间智能，发现空间推理是主要瓶颈（71% 错误），语言推理技巧反而有害，认知地图可改善距离推理

论文原文代码仓库

核心思想

多模态大模型（MLLM）能不能像人一样理解 3D 空间？本文通过 VSI-Bench（Visual Spatial Intelligence Benchmark）系统评测，发现：

模型展现出初步的空间感知能力，但远低于人类（差 33 个百分点）
71% 的错误源于空间推理（而非视觉感知或语言理解）
Chain-of-Thought 等语言推理技巧反而有害
让模型先画”认知地图”可以提升 10% 距离推理准确率

背景知识

什么是视觉空间智能

人类看到一段室内漫游视频后，能自然地形成空间心理模型：

“沙发在窗户左边”
“厨房到卧室大约 5 米”
“我先经过了客厅，再到了厨房”

这种能力被称为视觉空间智能，包含四个维度：

维度	能力	示例
视觉感知	识别物体	“这是一张桌子”
语言智能	理解和推理	“桌子比椅子大”
时间处理	理解事件顺序	“先看到桌子，后看到椅子”
空间推理	理解 3D 关系	“桌子在椅子前方 2 米”

自我中心 vs 环境中心转换

自我中心（Egocentric）：从”我”的视角看世界（”桌子在我左边”）
环境中心（Allocentric）：从上帝视角看世界（”桌子在房间北侧”）

从视频（自我中心）到空间理解（环境中心）需要持续的坐标变换和工作记忆。

方法详解

1. VSI-Bench 数据集构建

1.1 数据来源

288 个真实室内场景视频，来自三个 3D 标注数据集：

ScanNet：带 3D 重建的室内扫描
ScanNet++：高质量版本
ARKitScenes：iPhone LiDAR 扫描

统一分辨率：640×480。

1.2 八大任务

分为三类：

配置类（空间关系）：

物体计数：场景中有多少把椅子？
相对距离：桌子和沙发哪个离门更近？
相对方向：从沙发看桌子在什么方向？
路径规划：从 A 到 B 的最短路径经过哪些房间？

测量估计类：

物体大小：这张桌子大约多大？
房间大小：这个房间大约多大？
绝对距离：桌子到椅子大约多远？

时空类：

出现顺序：视频中先出现了什么物体？

1.3 质量控制

三级质量保证：

基于模板的自动生成（7 种任务）+ 人工标注（路径规划）
人工迭代过滤低质量视频
验证标注、消除歧义、修正模板错误

2. 评估指标

选择题任务：准确率（ACC）

数值回答任务：平均相对准确率（MRA）

\[\text{MRA} = \frac{1}{10} \sum_{\theta \in C} \mathbf{1}\left[\frac{|\hat{y} - y|}{y} < 1 - \theta\right]\]

其中 $C = {0.5, 0.55, 0.60, \ldots, 0.95}$。MRA 衡量预测值 $\hat{y}$ 在多个容忍度下的准确性。

3. 认知地图实验

灵感：人类在导航时会在脑中构建空间地图。让模型也这样做会怎样？

方法：让模型在 10×10 网格上预测每个物体的位置，然后基于这个”认知地图”回答距离问题。

\[\text{准确率} = f(\text{物体间距离})\]

距离 1.0-2.1：64% 准确率
距离 8.9-10.0：0% 准确率

结论：模型形成的是局部空间模型的拼接，而非全局统一模型。

实验结果

主要结果

模型	平均准确率
人类	79%
Gemini-1.5 Pro	45.4%
LLaVA-Video-72B	~40%
LLaVA-OneVision-72B	~40%
InternVL2-40B	—

人类比最好的模型高 33 个百分点。

错误归因分析

对 163 个错误预测进行人工分析：

错误类型	占比
空间推理	71%
视觉感知	16%
语言智能	8%
自我中心-环境中心转换	5%

Chain-of-Thought 的反效果

方法	平均变化
Zero-Shot CoT	-4%（变差）
Self-Consistency + CoT	-1.1%（变差）
Tree-of-Thoughts	-4%（变差）

语言推理技巧对空间推理有害——与在 VideoMME 上 +1.6% 的效果形成鲜明对比。

为什么有害：CoT 鼓励模型用语言”推理”空间关系，但空间理解本质上是非语言的——语言中间步骤引入了额外噪声。

认知地图的效果

配置	相对距离准确率
无认知地图	46.0%
模型生成认知地图	56.0%（+10%）
真值认知地图	66.0%（+20%）

消融：网格大小

网格	模型地图准确率	真值地图准确率
10×10	56.0%	66.0%
20×20	54.0%	78.0%

更精细的网格对真值地图有益，但对模型生成的地图反而略差（模型精度不足以利用更细网格）。

模型能力的影响

模型	认知地图效果
LLaVA-Video-72B	+8%（正面）
LLaVA-Video-7B	负面（地图质量太差）

个人思考

“71% 空间推理错误” 是最重要的发现——说明模型不是”看不见”而是”理解不了空间”，这是根本能力缺失而非数据不足。
CoT 对空间推理有害挑战了”万物皆可 CoT”的信条——空间思维本质上是非语言的，强迫模型用语言做空间推理反而增加了错误。
认知地图的成功暗示了一条前进路径：让模型先建立显式空间表征，再基于表征回答问题——而非直接从像素到答案。
局部 vs 全局空间模型的发现很有启发性：模型能理解”附近的物体关系”但不能整合为全局地图——这像是缺少空间工作记忆。
基准的长期价值：VSI-Bench 的 8 种任务覆盖了空间智能的多个维度，将成为衡量模型空间理解进步的标准尺度。

← 返回列表