← 返回列表

GRACE: Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation

作者 Mingyang Sun, Jiude Wei, Qichen He, Donglin Wang, Cewu Lu, Jianhua Sun
年份 2025
会议/期刊 arXiv 2025
评分
标签 机器人操控 视觉语言模型 零样本泛化
摘要 可执行解析概念(EAC)桥接 VLM 语义推理与精确机器人操控:几何概念资产 + 结构蓝图 + 操控蓝图,零样本成功率 86-90%,比 SoFar 高 28-30pp

核心思想

VLM(如 GPT-4o)具有强大的语义推理能力,但不能直接输出精确的机器人动作。现有方法要么依赖 VLM 输出粗糙坐标(不精确),要么需要大量训练数据(不泛化)。

GRACE 提出可执行解析概念(EAC)作为桥梁:

  • VLM 负责语义理解(识别物体类型、选择操控策略)
  • EAC 提供数学化的几何蓝图(精确计算抓取姿态和力方向)
  • 两者结合 → VLM 的语义能力 + 解析方法的精确性

结果:零样本成功率 86-90%,比之前最好的 SoFar 高 28-30 个百分点

背景知识

VLM 做机器人操控的困境

方案 优势 问题
VLM 直接输出坐标 简单端到端 精度不够(像素级误差大)
VLM + 学习策略 精度可接受 需要大量训练数据,难泛化
传统几何方法 精确 需要预定义每种物体的处理方式
GRACE(EAC) VLM 选择 + 解析计算 精确且零样本泛化

什么是解析概念

不同于端到端学习的”黑箱”策略,EAC 是可解释的数学描述

例子:操控圆弧形门把手

  • 几何概念:圆弧(半径 $R_o$,角度 $\theta_c$)
  • 结构蓝图:用参数化曲线描述把手形状
  • 操控蓝图:抓取姿态 = 旋转变换 + 平移变换的组合
\[G = R(0, 0, \vartheta) \cdot T(0, -R_o, 0) \cdot R(\pi/2, 0, \pi/2) \cdot G^*\]

其中 $-\theta_c/2 \le \vartheta \le \theta_c/2$ 是抓取角度范围。

什么是物体可供性(Affordance)

物体的可供性是指”物体的哪些部分能被如何使用”:

  • 门把手 → 可以被拉/推
  • 抽屉拉手 → 可以被
  • 旋钮 → 可以被

EAC 将可供性数学化:把手类型 → 对应的力方向和抓取公式。

方法详解

1. EAC 的三层结构

1.1 几何概念资产

参数驱动的基元形状库,每种带有可供性标注:

基元 参数 可供性
环形 半径 $R_o$,角度 $\theta_c$ 拉、转
长方体 长 $L$,宽 $W$,高 $H$ 拉、推
圆柱 半径 $r$,高 $h$ 转、拉
球形 半径 $r$ 抓取

1.2 结构蓝图

参数化公式描述物体部件的空间布局。不是固定模板,而是带可调参数的数学描述 → VLM 选择模板后,MLP 从点云估计具体参数。

1.3 操控蓝图

可执行的函数,输入结构蓝图参数 → 输出抓取姿态 $G$ 和力方向 $F$:

\[G, F = \text{ManipBlueprint}(\text{StructParams})\]

2. 三阶段管道

Stage I:空间感知任务解析

VLM 进行粗到细分析

  1. 识别场景中的物体和空间关系
  2. 输出结构化图 $G = (V, E)$($V$=物体节点,$E$=空间关系)
  3. 将长程任务分解为子任务,每个子任务附带验证条件

Stage II:策略脚手架构建(4 步)

Step 1:目标识别

  • 使用 GroundingDINO + SAM 进行开放词汇分割
  • 将 2D 分割掩码反投影到 3D 点云

Step 2:结构蓝图生成

  • VLM 将语义感知映射到几何概念(如”这是圆弧形把手”)
  • MLP 头从点云估计具体参数(如半径、角度)

Step 3:操控蓝图生成

  • VLM 选择交互函数(拉、推、转)
  • 解析公式计算抓取姿态 $G$ 和力向量 $F$

Step 4:坐标变换

  • 用齐次变换将局部蓝图坐标转换到世界坐标系

Stage III:底层运动执行

  • 运动规划器生成无碰撞的接近路径
  • 柔顺轨迹实现抓取
  • 交互阶段施加力对齐的扳手力

3. 点云参数估计

使用 Point-Transformer(12 层、6 头注意力,2048 点输入→128 组×32 点)从点云估计结构参数。训练数据来自 PartNet-Mobility 标注和 SAPIEN 仿真。

4. 6D 位姿估计

使用 FoundationPose 进行物体定位,为坐标变换提供基础。

实验结果

SimplerEnv 仿真(Widow-X 任务)

方法 平均成功率
RT-2 43.9%
SoFar 58.3%
SpatialVLA 61.1%
GRACE (GPT-4o) 86.1%
GRACE (Qwen2.5-VL) 84.4%

SimplerEnv 仿真(Google Robot 任务)

方法 平均成功率
SoFar 69.6%
Octo 66.7%
GRACE (GPT-4o) 90.1%

在铰接物体任务上优势最大:开抽屉 90.3% vs SoFar 29.7%。

SAPIEN 铰接物体评估

物体 GRACE ManipLLM FlowBot3D
柜门 0.85 0.71 0.35
水龙头 0.65 0.26 0.17
储物柜 0.79 0.63 0.40
窗户 0.93 0.56 0.32

VLM 概念选择的鲁棒性

变体 平均成功率
Oracle 标签(人工选择) 0.80
VLM 自动选择 0.77

VLM 自动选择仅比人工标签低 3 个百分点 → 概念选择可靠。

错误分析

错误来源 占比
位姿估计 主要
逆运动学 次要
结构参数估计 极少
VLM/VFM 模块 极少

真实世界实验

使用 Realman RM75 机械臂 + 平行夹爪 + Intel RealSense D435 相机,在 4 类物体上零样本成功操控,包括长程任务”整理桌面并打开微波炉”。

个人思考

  1. EAC 是优雅的中间表示:既不像端到端方法那样是黑箱,也不像传统方法那样需要为每个物体手工编程——VLM 选择模板 + 解析计算填充参数。
  2. “VLM 做决策、数学做计算” 的分工非常合理:VLM 擅长语义理解但不擅长精确数值,解析方法擅长精确计算但不懂语义。
  3. VLM 无关性(GPT-4o 和 Qwen2.5-VL 性能接近)说明框架设计不依赖特定 VLM → 随着 VLM 进步,性能会自然提升。
  4. 开抽屉任务的巨大优势(90.3% vs 29.7%)说明铰接物体操控是 EAC 最适合的场景——这些物体的运动可以被精确的几何公式描述。
  5. 主要瓶颈是位姿估计而非概念选择或参数估计 → 改进 6D 位姿估计模型可能带来最大提升。
← 返回列表