ArtGS: 3D Gaussian Splatting for Interactive Visual-Physical Modeling of Articulated Objects
核心思想
机器人操控铰接物体(如冰箱门、抽屉)需要理解物体的关节参数(旋转轴位置、方向、类型)。现有方法要么需要 CAD 模型(不现实),要么依赖大量标注数据。
ArtGS 提出三步方案:
- 3DGS 重建铰接物体的静态外观
- VLM 推理关节的初始参数(类型、位置、方向)
- 可微渲染闭环优化:机器人操控物体时,通过渲染损失优化关节参数
背景知识
什么是铰接物体
| 关节类型 | 运动方式 | 示例 |
|---|---|---|
| 旋转关节(Revolute) | 绕轴旋转 | 冰箱门、笔记本翻盖 |
| 平移关节(Prismatic) | 沿轴平移 | 抽屉、滑动柜 |
每个关节由三个参数描述:$\psi_i = (\mathbf{u}_i, \mathbf{q}_i, c_i)$
- $\mathbf{u}_i$:关节轴方向
- $\mathbf{q}_i$:关节轴上的一个点(原点)
- $c_i$:关节类型(旋转/平移)
什么是线性蒙皮(Linear Blend Skinning, LBS)
LBS 是一种让网格随骨骼运动的方法。每个高斯点受多个骨骼的影响:
\[\mu_i' = \left(\sum_{j=0}^{K} W_{ij} B_j\right) \mu_i\]- $\mu_i$:原始位置
- $B_j$:第 $j$ 个骨骼的变换矩阵
- $W_{ij}$:可学习的蒙皮权重(决定第 $i$ 个高斯受第 $j$ 个骨骼影响的程度)
方法详解
1. 静态 3DGS 重建
从 15 个视角的 RGB-D 图像重建物体和机器人。
每个高斯的概率密度函数:
\[f_g = \mathcal{N}(\mu, \mathbf{R} \mathbf{S} \mathbf{S}^T \mathbf{R}^T)\]渲染方程(Alpha 合成):
\[C = \sum_{g_i \in \mathcal{G}_c} c_i \alpha_i \prod_{j=1}^{i-1}(1 - \alpha_j)\]机器人重建使用 Modified DH 参数 $\Theta_i = (\beta_i, a_i, d_i, \theta_i)$ 和正运动学:
\[T_j(\mathbf{p}) = \prod_{i=0}^{j-1} A_i\]2. VLM 推理骨骼结构
使用微调的 InternVL-2.5-4B 从 3DGS 渲染的正视图中推理关节:
输入:渲染的物体图像 输出:关节参数对 $(\mathcal{B}_i, c_i)$——边界框 + 关节类型
关节方向推导:
- 旋转关节:对边界框内采样点做 PCA → 主成分方向即为关节轴
- 平移关节:边界框水平和垂直方向的叉积 → 关节轴
VLM 在 14,000 个文本-图像对上微调。
3. 动态 3DGS 铰接建模
3.1 阻抗控制驱动操控
\[M(\ddot{x}_c - \ddot{x}_d) + D(\dot{x}_c - \dot{x}_d) + K(x_c - x_d) = F_\text{ext}\]其中 $M$ 是惯性、$D$ 是阻尼、$K$ 是刚度。这确保机器人与物体的安全交互。
3.2 骨骼变换
给定关节角度 $\theta$,计算每个骨骼的变换矩阵:
\[[B_0, B_1, \ldots, B_K] = \mathcal{B}(\theta)\]- 旋转关节:使用 Rodrigues 公式计算旋转矩阵
- 平移关节:沿关节轴平移
- $B_0$ = 恒等矩阵(静止基座)
3.3 LBS 应用变换
每个高斯点的新位置和旋转:
\[\mu_i' = \left(\sum_{j=0}^{K} W_{ij} B_j\right) \mu_i, \quad r_i' = \left(\sum_{j=0}^{K} W_{ij} B_j\right) r_i\]$W \in \mathbb{R}^{K+1}$ 是可学习的蒙皮权重。
3.4 可微渲染优化
机器人操控物体(如推开冰箱门),拍摄 $T$ 个时间步的图像,优化关节参数:
\[\min_{J=\{\psi_i\}_{i=1}^{K}, \{\theta_t\}_{t=1}^{T}} \mathcal{L} = \lambda_{L1} L_1 + \lambda_{SSIM} L_{SSIM} + L_\text{reg}\]闭环过程:
- VLM 给出初始关节参数估计(可能不精确,误差 >20°)
- 机器人操控物体 → 拍摄序列图像
- 用 LBS + 3DGS 渲染预测图像
- 与真实图像比较 → 梯度反传优化关节参数
- 重复直到收敛
实验结果
关节参数估计精度
| 方法 | 洗碗机(轴误差) | 冰箱(轴误差) | 橱柜(原点误差) |
|---|---|---|---|
| ANCSH | 15.32° | 16.34° | 10.53 cm |
| GAMMA | 12.67° | 10.42° | 11.94 cm |
| Ditto | 3.63° | 0.46° | 9.67 cm |
| ArtGS | 3.01° | 1.10° | 5.33 cm |
操控成功率
| 方法 | 洗碗机 | 冰箱 | 抽屉 | 橱柜 |
|---|---|---|---|---|
| TD3 | 5.6% | 4.6% | 5.8% | 6.6% |
| UMPNet | 30.9% | 35.7% | 39.2% | 36.4% |
| GAMMA | 49.2% | 42.1% | 56.8% | 55.3% |
| ArtGS | 62.4% | 75.2% | 90.3% | 76.8% |
抽屉操控成功率高达 90.3%。
真实世界实验
| 物体 | 无优化 | 有优化 |
|---|---|---|
| 橱柜(抽屉) | 6/10 | 9/10 |
| 抽屉 | 7/10 | 10/10 |
| 储物柜 | 5/10 | 9/10 |
| 微波炉 | 4/10 | 8/10 |
可微优化显著提升真实世界性能。
消融:VLM 初始估计 vs 优化后
| 阶段 | 关节轴误差 | 操控成功率 |
|---|---|---|
| VLM 初始估计 | 12°-25° | 37-46% |
| 优化后 | 1°-3° | 62-90% |
即使 VLM 初始误差超过 20°,可微渲染优化也能修正到 1-3°。
个人思考
- “VLM 粗估 + 可微渲染精调” 是优雅的两阶段设计:VLM 提供合理的初始猜测(避免局部最优),可微渲染提供精确优化(弥补 VLM 误差)。
- 闭环优化的核心洞察:不是静态地估计关节参数,而是在操控过程中动态修正——越操控越准确。
- 跨机器人能力(Franka + xArm7)通过 MDH 正运动学实现——说明方法不绑定特定硬件。
- LBS 的选择使方法天然支持多关节物体——蒙皮权重自动学习哪些高斯属于哪个骨骼。
- VLM 微调成本低(14K 数据)但效果显著——表明大型预训练模型在特定任务上只需少量数据就能适配。