GRACE: Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation
核心思想
VLM(如 GPT-4o)具有强大的语义推理能力,但不能直接输出精确的机器人动作。现有方法要么依赖 VLM 输出粗糙坐标(不精确),要么需要大量训练数据(不泛化)。
GRACE 提出可执行解析概念(EAC)作为桥梁:
- VLM 负责语义理解(识别物体类型、选择操控策略)
- EAC 提供数学化的几何蓝图(精确计算抓取姿态和力方向)
- 两者结合 → VLM 的语义能力 + 解析方法的精确性
结果:零样本成功率 86-90%,比之前最好的 SoFar 高 28-30 个百分点。
背景知识
VLM 做机器人操控的困境
| 方案 | 优势 | 问题 |
|---|---|---|
| VLM 直接输出坐标 | 简单端到端 | 精度不够(像素级误差大) |
| VLM + 学习策略 | 精度可接受 | 需要大量训练数据,难泛化 |
| 传统几何方法 | 精确 | 需要预定义每种物体的处理方式 |
| GRACE(EAC) | VLM 选择 + 解析计算 | 精确且零样本泛化 |
什么是解析概念
不同于端到端学习的”黑箱”策略,EAC 是可解释的数学描述:
例子:操控圆弧形门把手
- 几何概念:圆弧(半径 $R_o$,角度 $\theta_c$)
- 结构蓝图:用参数化曲线描述把手形状
- 操控蓝图:抓取姿态 = 旋转变换 + 平移变换的组合
其中 $-\theta_c/2 \le \vartheta \le \theta_c/2$ 是抓取角度范围。
什么是物体可供性(Affordance)
物体的可供性是指”物体的哪些部分能被如何使用”:
- 门把手 → 可以被拉/推
- 抽屉拉手 → 可以被拉
- 旋钮 → 可以被转
EAC 将可供性数学化:把手类型 → 对应的力方向和抓取公式。
方法详解
1. EAC 的三层结构
1.1 几何概念资产
参数驱动的基元形状库,每种带有可供性标注:
| 基元 | 参数 | 可供性 |
|---|---|---|
| 环形 | 半径 $R_o$,角度 $\theta_c$ | 拉、转 |
| 长方体 | 长 $L$,宽 $W$,高 $H$ | 拉、推 |
| 圆柱 | 半径 $r$,高 $h$ | 转、拉 |
| 球形 | 半径 $r$ | 抓取 |
1.2 结构蓝图
参数化公式描述物体部件的空间布局。不是固定模板,而是带可调参数的数学描述 → VLM 选择模板后,MLP 从点云估计具体参数。
1.3 操控蓝图
可执行的函数,输入结构蓝图参数 → 输出抓取姿态 $G$ 和力方向 $F$:
\[G, F = \text{ManipBlueprint}(\text{StructParams})\]2. 三阶段管道
Stage I:空间感知任务解析
VLM 进行粗到细分析:
- 识别场景中的物体和空间关系
- 输出结构化图 $G = (V, E)$($V$=物体节点,$E$=空间关系)
- 将长程任务分解为子任务,每个子任务附带验证条件
Stage II:策略脚手架构建(4 步)
Step 1:目标识别
- 使用 GroundingDINO + SAM 进行开放词汇分割
- 将 2D 分割掩码反投影到 3D 点云
Step 2:结构蓝图生成
- VLM 将语义感知映射到几何概念(如”这是圆弧形把手”)
- MLP 头从点云估计具体参数(如半径、角度)
Step 3:操控蓝图生成
- VLM 选择交互函数(拉、推、转)
- 解析公式计算抓取姿态 $G$ 和力向量 $F$
Step 4:坐标变换
- 用齐次变换将局部蓝图坐标转换到世界坐标系
Stage III:底层运动执行
- 运动规划器生成无碰撞的接近路径
- 柔顺轨迹实现抓取
- 交互阶段施加力对齐的扳手力
3. 点云参数估计
使用 Point-Transformer(12 层、6 头注意力,2048 点输入→128 组×32 点)从点云估计结构参数。训练数据来自 PartNet-Mobility 标注和 SAPIEN 仿真。
4. 6D 位姿估计
使用 FoundationPose 进行物体定位,为坐标变换提供基础。
实验结果
SimplerEnv 仿真(Widow-X 任务)
| 方法 | 平均成功率 |
|---|---|
| RT-2 | 43.9% |
| SoFar | 58.3% |
| SpatialVLA | 61.1% |
| GRACE (GPT-4o) | 86.1% |
| GRACE (Qwen2.5-VL) | 84.4% |
SimplerEnv 仿真(Google Robot 任务)
| 方法 | 平均成功率 |
|---|---|
| SoFar | 69.6% |
| Octo | 66.7% |
| GRACE (GPT-4o) | 90.1% |
在铰接物体任务上优势最大:开抽屉 90.3% vs SoFar 29.7%。
SAPIEN 铰接物体评估
| 物体 | GRACE | ManipLLM | FlowBot3D |
|---|---|---|---|
| 柜门 | 0.85 | 0.71 | 0.35 |
| 水龙头 | 0.65 | 0.26 | 0.17 |
| 储物柜 | 0.79 | 0.63 | 0.40 |
| 窗户 | 0.93 | 0.56 | 0.32 |
VLM 概念选择的鲁棒性
| 变体 | 平均成功率 |
|---|---|
| Oracle 标签(人工选择) | 0.80 |
| VLM 自动选择 | 0.77 |
VLM 自动选择仅比人工标签低 3 个百分点 → 概念选择可靠。
错误分析
| 错误来源 | 占比 |
|---|---|
| 位姿估计 | 主要 |
| 逆运动学 | 次要 |
| 结构参数估计 | 极少 |
| VLM/VFM 模块 | 极少 |
真实世界实验
使用 Realman RM75 机械臂 + 平行夹爪 + Intel RealSense D435 相机,在 4 类物体上零样本成功操控,包括长程任务”整理桌面并打开微波炉”。
个人思考
- EAC 是优雅的中间表示:既不像端到端方法那样是黑箱,也不像传统方法那样需要为每个物体手工编程——VLM 选择模板 + 解析计算填充参数。
- “VLM 做决策、数学做计算” 的分工非常合理:VLM 擅长语义理解但不擅长精确数值,解析方法擅长精确计算但不懂语义。
- VLM 无关性(GPT-4o 和 Qwen2.5-VL 性能接近)说明框架设计不依赖特定 VLM → 随着 VLM 进步,性能会自然提升。
- 开抽屉任务的巨大优势(90.3% vs 29.7%)说明铰接物体操控是 EAC 最适合的场景——这些物体的运动可以被精确的几何公式描述。
- 主要瓶颈是位姿估计而非概念选择或参数估计 → 改进 6D 位姿估计模型可能带来最大提升。