← 返回列表

InfiniteWorld: A Unified Scalable Simulation Framework for General Visual-Language Robot Interaction

作者 Pengzhen Ren, et al.

年份 2024

会议/期刊 arXiv 2024

评分 ★ ★ ★ ★ ★

标签具身智能仿真平台多智能体

摘要基于 Isaac Sim 的统一具身 AI 仿真框架：生成式 3D 资产构建 + Real2Sim + 自动标注 + 4 个基准（导航/操作/协作探索/社交操作），揭示 VLM 在具身任务中的根本局限

论文原文代码仓库

核心思想

具身 AI 研究面临碎片化问题：不同任务用不同仿真器，资产格式不统一，人机交互不真实。

InfiniteWorld 基于 NVIDIA Isaac Sim 构建统一框架，解决三个核心问题：

资产稀缺：生成式 3D 构建 + 多数据集统一格式
Real2Sim 鸿沟：深度先验约束的重建管线
评估缺失：4 个渐进式基准（导航 → 操作 → 协作 → 社交）

关键发现：当前 VLM 在零样本具身任务上几乎完全失败（成功率 ~0%）。

背景知识

具身 AI 仿真器对比

仿真器	物理引擎	资产规模	多机器人	社交交互
AI2-THOR	Unity	中等	有限	无
Habitat	自研	大	有限	无
iGibson	PyBullet	中等	有	无
InfiniteWorld	Isaac Sim	百万级	有	有

为什么 VLM 在具身任务上失败

维度	纯视觉问答	具身交互
输出	文本答案	连续动作序列
反馈	即时	延迟、环境依赖
空间理解	2D 图像	3D 场景 + 物理约束
错误代价	重新回答	不可逆（碰撞、掉落等）

方法详解

1. 3D 资产构建管线

1.1 生成式场景构建

基于 HOLODECK 的语言驱动场景生成
236 种地板/墙壁纹理
生成 10K 基础室内场景 → 通过风格变换扩展至 236 万

1.2 Real2Sim 管线

在 PGSR 基础上改进，加入深度和法线正则化解决反光表面问题：

SfM（colmap-glomap）→ 结构恢复
新视角合成 + TSDF/Marching Cubes 建网格
Z 轴对齐、去噪、补洞、重着色、简化

1.3 Annot8-3D 标注框架

三阶段标注管线：

自动粗分割：Point Transformer V3
交互精化：SAM2Point 提示引导
人工微调：复杂区域

支持分布式协作 + AI 辅助 + 人在回路。

1.4 统一资产格式

所有资产转换为 .usd 格式：

数据集	类型	数量
HM3D	场景	1,000
HSSD	场景	120
ScanNet	场景	1,513
3D-Front	家具	5,172
Objaverse	物体	400 万+
PartNet-Mobility	关节物体	26,671
ClothesNet	软体物体	3,051

2. 四个渐进式基准

任务：「找到 <房间> 中的 <物体>」

成功条件：目标物体在 60° 视野内且距离 <2m
指标：SR（成功率）、SPL（路径加权成功率）、NE（导航误差）

Benchmark 2：移动操作（Loco-Manipulation）

任务：「从 <房间1> 拿 <物体1> 放到 <房间2> 的 <物体2> 上」

组合导航 + 定位 + 抓取 + 放置

Benchmark 3：场景图协作探索

多机器人协作环境建图：

最多 200 步探索
机器人共享地图数据、同步位置
指标：SER（语义探索率）、MRMSE（物体中心定位精度）

Benchmark 4：开放世界社交操作

两种交互范式：

层级式：管理者拥有完整环境知识，普通智能体通过问答获取信息
平等式：所有智能体能力相同，通信范围内对话交换知识

实验结果

Benchmark 1：物体导航

方法	模型	SR	SPL
LLM 指令跟随	GPT-4o	90.82%	90.82%
LLM 指令跟随	Qwen-turbo	69.94%	69.94%
LLM 指令跟随	ChatGLM4-flash	66.41%	66.41%
VLM 零样本	GPT-4o	0.06%	0.00%
VLM 零样本	Qwen-VL2	0.00%	0.00%
VLM 零样本	GLM-4V	0.00%	0.00%

VLM 零样本完全失败（~0%）vs LLM+结构化接口 90%+。

Benchmark 2：移动操作

方法	模型	SR
LLM 指令跟随	GPT-4o	77.28%
LLM 指令跟随	Qwen-turbo	42.64%
VLM 零样本	GPT-4o	0.01%
VLM 零样本	Qwen-VL2	0.00%

操作比导航更难：GPT-4o 从 90.82% 降到 77.28%。

Benchmark 3：协作探索

方法	SER	MRMSE
单机器人	25.81%	5.78
随机协作	30.30%	7.74
Co-NavGPT (GPT-4)	32.09%	6.13
Co-NavGPT (GPT-4o)	28.96%	7.62

协作优于单体，但绝对性能仍然很低（~32%）。

Benchmark 4：社交操作

配置	SR
层级式（VLM 探索）	0.00%
层级式（VLM+动作原语）	0.00%
平等式（VLM 零样本）	0.00%

所有配置成功率为零 → 语义地图质量太差，导致下游任务级联失败。

个人思考

VLM 零样本 ~0% 的结果是最重要的发现：当前最强的 VLM（GPT-4o）在具身任务上几乎完全无用 → “看图说话”能力不等于“看图行动”能力，两者之间存在巨大鸿沟。
LLM+结构化接口 90%+ vs VLM 零样本 ~0% 说明：给模型结构化的动作空间（API 调用）比让模型从原始视觉直接输出动作有效得多 → 当前具身 AI 的正确范式可能是”感知模块 + LLM 规划”而非端到端 VLM。
Benchmark 4 全零揭示了级联失败的问题：上游探索的语义地图不精确 → 下游操作无法找到目标 → 每个环节的误差在管线中被放大。
236 万场景 + 400 万物体的资产规模是工程上的重要贡献：之前的仿真器受限于资产数量和多样性 → InfiniteWorld 通过生成式方法突破了这个瓶颈。
GPT-4 在协作探索上优于 GPT-4o（32.09% vs 28.96%）是反直觉的：可能 GPT-4 的结构化推理能力更适合规划任务，而 GPT-4o 的多模态能力在此任务中不是瓶颈。