InfiniteWorld: A Unified Scalable Simulation Framework for General Visual-Language Robot Interaction
核心思想
具身 AI 研究面临碎片化问题:不同任务用不同仿真器,资产格式不统一,人机交互不真实。
InfiniteWorld 基于 NVIDIA Isaac Sim 构建统一框架,解决三个核心问题:
- 资产稀缺:生成式 3D 构建 + 多数据集统一格式
- Real2Sim 鸿沟:深度先验约束的重建管线
- 评估缺失:4 个渐进式基准(导航 → 操作 → 协作 → 社交)
关键发现:当前 VLM 在零样本具身任务上几乎完全失败(成功率 ~0%)。
背景知识
具身 AI 仿真器对比
| 仿真器 | 物理引擎 | 资产规模 | 多机器人 | 社交交互 |
|---|---|---|---|---|
| AI2-THOR | Unity | 中等 | 有限 | 无 |
| Habitat | 自研 | 大 | 有限 | 无 |
| iGibson | PyBullet | 中等 | 有 | 无 |
| InfiniteWorld | Isaac Sim | 百万级 | 有 | 有 |
为什么 VLM 在具身任务上失败
| 维度 | 纯视觉问答 | 具身交互 |
|---|---|---|
| 输出 | 文本答案 | 连续动作序列 |
| 反馈 | 即时 | 延迟、环境依赖 |
| 空间理解 | 2D 图像 | 3D 场景 + 物理约束 |
| 错误代价 | 重新回答 | 不可逆(碰撞、掉落等) |
方法详解
1. 3D 资产构建管线
1.1 生成式场景构建
- 基于 HOLODECK 的语言驱动场景生成
- 236 种地板/墙壁纹理
- 生成 10K 基础室内场景 → 通过风格变换扩展至 236 万
1.2 Real2Sim 管线
在 PGSR 基础上改进,加入深度和法线正则化解决反光表面问题:
- SfM(colmap-glomap)→ 结构恢复
- 新视角合成 + TSDF/Marching Cubes 建网格
- Z 轴对齐、去噪、补洞、重着色、简化
1.3 Annot8-3D 标注框架
三阶段标注管线:
- 自动粗分割:Point Transformer V3
- 交互精化:SAM2Point 提示引导
- 人工微调:复杂区域
支持分布式协作 + AI 辅助 + 人在回路。
1.4 统一资产格式
所有资产转换为 .usd 格式:
| 数据集 | 类型 | 数量 |
|---|---|---|
| HM3D | 场景 | 1,000 |
| HSSD | 场景 | 120 |
| ScanNet | 场景 | 1,513 |
| 3D-Front | 家具 | 5,172 |
| Objaverse | 物体 | 400 万+ |
| PartNet-Mobility | 关节物体 | 26,671 |
| ClothesNet | 软体物体 | 3,051 |
2. 四个渐进式基准
Benchmark 1:物体导航(Loco-Navigation)
任务:「找到 <房间> 中的 <物体>」
- 成功条件:目标物体在 60° 视野内且距离 <2m
- 指标:SR(成功率)、SPL(路径加权成功率)、NE(导航误差)
Benchmark 2:移动操作(Loco-Manipulation)
任务:「从 <房间1> 拿 <物体1> 放到 <房间2> 的 <物体2> 上」
- 组合导航 + 定位 + 抓取 + 放置
Benchmark 3:场景图协作探索
多机器人协作环境建图:
- 最多 200 步探索
- 机器人共享地图数据、同步位置
- 指标:SER(语义探索率)、MRMSE(物体中心定位精度)
Benchmark 4:开放世界社交操作
两种交互范式:
- 层级式:管理者拥有完整环境知识,普通智能体通过问答获取信息
- 平等式:所有智能体能力相同,通信范围内对话交换知识
实验结果
Benchmark 1:物体导航
| 方法 | 模型 | SR | SPL |
|---|---|---|---|
| LLM 指令跟随 | GPT-4o | 90.82% | 90.82% |
| LLM 指令跟随 | Qwen-turbo | 69.94% | 69.94% |
| LLM 指令跟随 | ChatGLM4-flash | 66.41% | 66.41% |
| VLM 零样本 | GPT-4o | 0.06% | 0.00% |
| VLM 零样本 | Qwen-VL2 | 0.00% | 0.00% |
| VLM 零样本 | GLM-4V | 0.00% | 0.00% |
VLM 零样本完全失败(~0%)vs LLM+结构化接口 90%+。
Benchmark 2:移动操作
| 方法 | 模型 | SR |
|---|---|---|
| LLM 指令跟随 | GPT-4o | 77.28% |
| LLM 指令跟随 | Qwen-turbo | 42.64% |
| VLM 零样本 | GPT-4o | 0.01% |
| VLM 零样本 | Qwen-VL2 | 0.00% |
操作比导航更难:GPT-4o 从 90.82% 降到 77.28%。
Benchmark 3:协作探索
| 方法 | SER | MRMSE |
|---|---|---|
| 单机器人 | 25.81% | 5.78 |
| 随机协作 | 30.30% | 7.74 |
| Co-NavGPT (GPT-4) | 32.09% | 6.13 |
| Co-NavGPT (GPT-4o) | 28.96% | 7.62 |
协作优于单体,但绝对性能仍然很低(~32%)。
Benchmark 4:社交操作
| 配置 | SR |
|---|---|
| 层级式(VLM 探索) | 0.00% |
| 层级式(VLM+动作原语) | 0.00% |
| 平等式(VLM 零样本) | 0.00% |
所有配置成功率为零 → 语义地图质量太差,导致下游任务级联失败。
个人思考
- VLM 零样本 ~0% 的结果是最重要的发现:当前最强的 VLM(GPT-4o)在具身任务上几乎完全无用 → “看图说话”能力不等于“看图行动”能力,两者之间存在巨大鸿沟。
- LLM+结构化接口 90%+ vs VLM 零样本 ~0% 说明:给模型结构化的动作空间(API 调用)比让模型从原始视觉直接输出动作有效得多 → 当前具身 AI 的正确范式可能是”感知模块 + LLM 规划”而非端到端 VLM。
- Benchmark 4 全零揭示了级联失败的问题:上游探索的语义地图不精确 → 下游操作无法找到目标 → 每个环节的误差在管线中被放大。
- 236 万场景 + 400 万物体的资产规模是工程上的重要贡献:之前的仿真器受限于资产数量和多样性 → InfiniteWorld 通过生成式方法突破了这个瓶颈。
- GPT-4 在协作探索上优于 GPT-4o(32.09% vs 28.96%)是反直觉的:可能 GPT-4 的结构化推理能力更适合规划任务,而 GPT-4o 的多模态能力在此任务中不是瓶颈。