← 返回列表

ArtGS: 3D Gaussian Splatting for Interactive Visual-Physical Modeling of Articulated Objects

作者 Qiaojun Yu, Xibin Yuan, Yu Jiang, Junting Chen, Dongzhe Zheng, Ce Hao, Yang You, Yixing Chen, Yao Mu, Liu Liu, Cewu Lu

年份 2025

会议/期刊 arXiv 2025

评分 ★ ★ ★ ★ ★

标签 3D重建高斯溅射机器人操控

摘要 3DGS + VLM 推理铰接骨骼 + 可微渲染闭环优化关节参数，关节轴误差 1-3°，操控成功率 62-90%，支持跨机器人部署

论文原文代码仓库

核心思想

机器人操控铰接物体（如冰箱门、抽屉）需要理解物体的关节参数（旋转轴位置、方向、类型）。现有方法要么需要 CAD 模型（不现实），要么依赖大量标注数据。

ArtGS 提出三步方案：

3DGS 重建铰接物体的静态外观
VLM 推理关节的初始参数（类型、位置、方向）
可微渲染闭环优化：机器人操控物体时，通过渲染损失优化关节参数

背景知识

什么是铰接物体

关节类型	运动方式	示例
旋转关节（Revolute）	绕轴旋转	冰箱门、笔记本翻盖
平移关节（Prismatic）	沿轴平移	抽屉、滑动柜

每个关节由三个参数描述：$\psi_i = (\mathbf{u}_i, \mathbf{q}_i, c_i)$

$\mathbf{u}_i$：关节轴方向
$\mathbf{q}_i$：关节轴上的一个点（原点）
$c_i$：关节类型（旋转/平移）

什么是线性蒙皮（Linear Blend Skinning, LBS）

LBS 是一种让网格随骨骼运动的方法。每个高斯点受多个骨骼的影响：

\[\mu_i' = \left(\sum_{j=0}^{K} W_{ij} B_j\right) \mu_i\]

$\mu_i$：原始位置
$B_j$：第 $j$ 个骨骼的变换矩阵
$W_{ij}$：可学习的蒙皮权重（决定第 $i$ 个高斯受第 $j$ 个骨骼影响的程度）

方法详解

1. 静态 3DGS 重建

从 15 个视角的 RGB-D 图像重建物体和机器人。

每个高斯的概率密度函数：

\[f_g = \mathcal{N}(\mu, \mathbf{R} \mathbf{S} \mathbf{S}^T \mathbf{R}^T)\]

渲染方程（Alpha 合成）：

\[C = \sum_{g_i \in \mathcal{G}_c} c_i \alpha_i \prod_{j=1}^{i-1}(1 - \alpha_j)\]

机器人重建使用 Modified DH 参数 $\Theta_i = (\beta_i, a_i, d_i, \theta_i)$ 和正运动学：

\[T_j(\mathbf{p}) = \prod_{i=0}^{j-1} A_i\]

2. VLM 推理骨骼结构

使用微调的 InternVL-2.5-4B 从 3DGS 渲染的正视图中推理关节：

输入：渲染的物体图像输出：关节参数对 $(\mathcal{B}_i, c_i)$——边界框 + 关节类型

关节方向推导：

旋转关节：对边界框内采样点做 PCA → 主成分方向即为关节轴
平移关节：边界框水平和垂直方向的叉积 → 关节轴

VLM 在 14,000 个文本-图像对上微调。

3. 动态 3DGS 铰接建模

3.1 阻抗控制驱动操控

\[M(\ddot{x}_c - \ddot{x}_d) + D(\dot{x}_c - \dot{x}_d) + K(x_c - x_d) = F_\text{ext}\]

其中 $M$ 是惯性、$D$ 是阻尼、$K$ 是刚度。这确保机器人与物体的安全交互。

3.2 骨骼变换

给定关节角度 $\theta$，计算每个骨骼的变换矩阵：

\[[B_0, B_1, \ldots, B_K] = \mathcal{B}(\theta)\]

旋转关节：使用 Rodrigues 公式计算旋转矩阵
平移关节：沿关节轴平移
$B_0$ = 恒等矩阵（静止基座）

3.3 LBS 应用变换

每个高斯点的新位置和旋转：

\[\mu_i' = \left(\sum_{j=0}^{K} W_{ij} B_j\right) \mu_i, \quad r_i' = \left(\sum_{j=0}^{K} W_{ij} B_j\right) r_i\]

$W \in \mathbb{R}^{K+1}$ 是可学习的蒙皮权重。

3.4 可微渲染优化

机器人操控物体（如推开冰箱门），拍摄 $T$ 个时间步的图像，优化关节参数：

\[\min_{J=\{\psi_i\}_{i=1}^{K}, \{\theta_t\}_{t=1}^{T}} \mathcal{L} = \lambda_{L1} L_1 + \lambda_{SSIM} L_{SSIM} + L_\text{reg}\]

闭环过程：

VLM 给出初始关节参数估计（可能不精确，误差 >20°）
机器人操控物体 → 拍摄序列图像
用 LBS + 3DGS 渲染预测图像
与真实图像比较 → 梯度反传优化关节参数
重复直到收敛

实验结果

关节参数估计精度

方法	洗碗机（轴误差）	冰箱（轴误差）	橱柜（原点误差）
ANCSH	15.32°	16.34°	10.53 cm
GAMMA	12.67°	10.42°	11.94 cm
Ditto	3.63°	0.46°	9.67 cm
ArtGS	3.01°	1.10°	5.33 cm

操控成功率

方法	洗碗机	冰箱	抽屉	橱柜
TD3	5.6%	4.6%	5.8%	6.6%
UMPNet	30.9%	35.7%	39.2%	36.4%
GAMMA	49.2%	42.1%	56.8%	55.3%
ArtGS	62.4%	75.2%	90.3%	76.8%

抽屉操控成功率高达 90.3%。

真实世界实验

物体	无优化	有优化
橱柜（抽屉）	6/10	9/10
抽屉	7/10	10/10
储物柜	5/10	9/10
微波炉	4/10	8/10

可微优化显著提升真实世界性能。

消融：VLM 初始估计 vs 优化后

阶段	关节轴误差	操控成功率
VLM 初始估计	12°-25°	37-46%
优化后	1°-3°	62-90%

即使 VLM 初始误差超过 20°，可微渲染优化也能修正到 1-3°。

个人思考

“VLM 粗估 + 可微渲染精调” 是优雅的两阶段设计：VLM 提供合理的初始猜测（避免局部最优），可微渲染提供精确优化（弥补 VLM 误差）。
闭环优化的核心洞察：不是静态地估计关节参数，而是在操控过程中动态修正——越操控越准确。
跨机器人能力（Franka + xArm7）通过 MDH 正运动学实现——说明方法不绑定特定硬件。
LBS 的选择使方法天然支持多关节物体——蒙皮权重自动学习哪些高斯属于哪个骨骼。
VLM 微调成本低（14K 数据）但效果显著——表明大型预训练模型在特定任务上只需少量数据就能适配。

← 返回列表