← 返回列表

InfiniteWorld: A Unified Scalable Simulation Framework for General Visual-Language Robot Interaction

作者 Pengzhen Ren, et al.
年份 2024
会议/期刊 arXiv 2024
评分
标签 具身智能 仿真平台 多智能体
摘要 基于 Isaac Sim 的统一具身 AI 仿真框架:生成式 3D 资产构建 + Real2Sim + 自动标注 + 4 个基准(导航/操作/协作探索/社交操作),揭示 VLM 在具身任务中的根本局限

核心思想

具身 AI 研究面临碎片化问题:不同任务用不同仿真器,资产格式不统一,人机交互不真实。

InfiniteWorld 基于 NVIDIA Isaac Sim 构建统一框架,解决三个核心问题:

  1. 资产稀缺:生成式 3D 构建 + 多数据集统一格式
  2. Real2Sim 鸿沟:深度先验约束的重建管线
  3. 评估缺失:4 个渐进式基准(导航 → 操作 → 协作 → 社交)

关键发现:当前 VLM 在零样本具身任务上几乎完全失败(成功率 ~0%)。

背景知识

具身 AI 仿真器对比

仿真器 物理引擎 资产规模 多机器人 社交交互
AI2-THOR Unity 中等 有限
Habitat 自研 有限
iGibson PyBullet 中等
InfiniteWorld Isaac Sim 百万级

为什么 VLM 在具身任务上失败

维度 纯视觉问答 具身交互
输出 文本答案 连续动作序列
反馈 即时 延迟、环境依赖
空间理解 2D 图像 3D 场景 + 物理约束
错误代价 重新回答 不可逆(碰撞、掉落等)

方法详解

1. 3D 资产构建管线

1.1 生成式场景构建

  • 基于 HOLODECK 的语言驱动场景生成
  • 236 种地板/墙壁纹理
  • 生成 10K 基础室内场景 → 通过风格变换扩展至 236 万

1.2 Real2Sim 管线

在 PGSR 基础上改进,加入深度和法线正则化解决反光表面问题:

  1. SfM(colmap-glomap)→ 结构恢复
  2. 新视角合成 + TSDF/Marching Cubes 建网格
  3. Z 轴对齐、去噪、补洞、重着色、简化

1.3 Annot8-3D 标注框架

三阶段标注管线:

  1. 自动粗分割:Point Transformer V3
  2. 交互精化:SAM2Point 提示引导
  3. 人工微调:复杂区域

支持分布式协作 + AI 辅助 + 人在回路。

1.4 统一资产格式

所有资产转换为 .usd 格式:

数据集 类型 数量
HM3D 场景 1,000
HSSD 场景 120
ScanNet 场景 1,513
3D-Front 家具 5,172
Objaverse 物体 400 万+
PartNet-Mobility 关节物体 26,671
ClothesNet 软体物体 3,051

2. 四个渐进式基准

Benchmark 1:物体导航(Loco-Navigation)

任务:「找到 <房间> 中的 <物体>」

  • 成功条件:目标物体在 60° 视野内且距离 <2m
  • 指标:SR(成功率)、SPL(路径加权成功率)、NE(导航误差)

Benchmark 2:移动操作(Loco-Manipulation)

任务:「从 <房间1> 拿 <物体1> 放到 <房间2> 的 <物体2> 上」

  • 组合导航 + 定位 + 抓取 + 放置

Benchmark 3:场景图协作探索

多机器人协作环境建图:

  • 最多 200 步探索
  • 机器人共享地图数据、同步位置
  • 指标:SER(语义探索率)、MRMSE(物体中心定位精度)

Benchmark 4:开放世界社交操作

两种交互范式:

  • 层级式:管理者拥有完整环境知识,普通智能体通过问答获取信息
  • 平等式:所有智能体能力相同,通信范围内对话交换知识

实验结果

Benchmark 1:物体导航

方法 模型 SR SPL
LLM 指令跟随 GPT-4o 90.82% 90.82%
LLM 指令跟随 Qwen-turbo 69.94% 69.94%
LLM 指令跟随 ChatGLM4-flash 66.41% 66.41%
VLM 零样本 GPT-4o 0.06% 0.00%
VLM 零样本 Qwen-VL2 0.00% 0.00%
VLM 零样本 GLM-4V 0.00% 0.00%

VLM 零样本完全失败(~0%)vs LLM+结构化接口 90%+。

Benchmark 2:移动操作

方法 模型 SR
LLM 指令跟随 GPT-4o 77.28%
LLM 指令跟随 Qwen-turbo 42.64%
VLM 零样本 GPT-4o 0.01%
VLM 零样本 Qwen-VL2 0.00%

操作比导航更难:GPT-4o 从 90.82% 降到 77.28%。

Benchmark 3:协作探索

方法 SER MRMSE
单机器人 25.81% 5.78
随机协作 30.30% 7.74
Co-NavGPT (GPT-4) 32.09% 6.13
Co-NavGPT (GPT-4o) 28.96% 7.62

协作优于单体,但绝对性能仍然很低(~32%)。

Benchmark 4:社交操作

配置 SR
层级式(VLM 探索) 0.00%
层级式(VLM+动作原语) 0.00%
平等式(VLM 零样本) 0.00%

所有配置成功率为零 → 语义地图质量太差,导致下游任务级联失败。

个人思考

  1. VLM 零样本 ~0% 的结果是最重要的发现:当前最强的 VLM(GPT-4o)在具身任务上几乎完全无用 → “看图说话”能力不等于“看图行动”能力,两者之间存在巨大鸿沟。
  2. LLM+结构化接口 90%+ vs VLM 零样本 ~0% 说明:给模型结构化的动作空间(API 调用)比让模型从原始视觉直接输出动作有效得多 → 当前具身 AI 的正确范式可能是”感知模块 + LLM 规划”而非端到端 VLM。
  3. Benchmark 4 全零揭示了级联失败的问题:上游探索的语义地图不精确 → 下游操作无法找到目标 → 每个环节的误差在管线中被放大。
  4. 236 万场景 + 400 万物体的资产规模是工程上的重要贡献:之前的仿真器受限于资产数量和多样性 → InfiniteWorld 通过生成式方法突破了这个瓶颈。
  5. GPT-4 在协作探索上优于 GPT-4o(32.09% vs 28.96%)是反直觉的:可能 GPT-4 的结构化推理能力更适合规划任务,而 GPT-4o 的多模态能力在此任务中不是瓶颈。
← 返回列表