← 返回列表

Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight

作者 Yi Yang, Xueqi Li, Yiyang Chen, Jin Song, Yihan Wang, Zipeng Xiao, Jiadi Su, You Qiaoben, Pengfei Liu, Zhijie Deng

年份 2025

会议/期刊 arXiv 2025

评分 ★ ★ ★ ★ ★

标签机器人操控 VLA模型视觉预测

摘要解耦视觉预见（DVF）的通用 VLA 模型：meta queries + 扩散 Transformer 将未来帧预测与动作学习分离，LIBERO 96.7% 成功率，真实世界超越 π₀.₅

论文原文代码仓库

核心思想

视觉-语言-动作模型（VLA） 是将预训练的多模态大模型扩展到机器人控制的新范式。但现有 VLA 有两个问题：

视觉预测与动作学习耦合：预测未来帧和预测动作共享同一骨干网络 → 互相干扰
微调后语言能力退化：训练动作预测会破坏预训练的语言理解

Mantis 提出解耦视觉预见（DVF）：

用 meta queries 从骨干提取动力学特征 → 输入独立的扩散 Transformer 预测未来帧
骨干网络不承担视觉预测负担 → 保持语言理解能力
三阶段渐进训练防止模态竞争

结果：LIBERO 基准 96.7% 成功率，真实世界超越 π₀.₅。

背景知识

什么是 VLA 模型

组件	功能	示例
Vision Encoder	理解图像	CLIP, SigLIP
Language Model	理解指令、推理	LLaMA, Qwen
Action Head	输出机器人动作	MLP, DiT

VLA = 用一个统一模型处理”看”（Vision）+ “理解”（Language）+ “动”（Action）。

视觉预见（Visual Foresight）为什么有用

预测”如果执行这个动作，未来会看到什么”——这迫使模型理解物理世界的因果关系：

推杯子 → 杯子向右移动
开抽屉 → 看到抽屉内部

问题：如果视觉预测和动作预测耦合在同一骨干中，优化目标冲突 → 收敛慢、性能差。

为什么需要保持语言能力

机器人需要理解复杂指令：

“把写着 Einstein 名字的杯子递给我”（需要世界知识）
“帮我拿 3+4 号抽屉里的东西”（需要基础运算）
“递给我那个水果”（需要语义理解）

如果微调后语言能力退化，机器人就无法理解这些指令。

方法详解

1. 模型架构

组件	选择	参数量
骨干 $\mathcal{P}$	Qwen2.5-VL	3.7B
DVF 头 $\mathcal{D}$	Sana 扩散 Transformer	1.4B
连接器 $\mathcal{C}$	12 层双向注意力 Transformer	0.3B
动作头 $\pi$	DiT + 因果注意力	0.3B
VAE	深度压缩自编码器	0.3B
总计		5.8B

核心数据流

第一步：骨干处理当前观察 + 语言指令 + 查询 token

\[\mathbf{h}_t = \mathcal{P}(\mathbf{o}_t, l, \text{[LAT]})\]

$\mathbf{o}_t$：当前图像（主相机 512×512 + 腕部相机 256×256）
$l$：语言指令
[LAT]：9 个潜在动作查询（meta queries）

第二步：DVF 头预测未来帧

\[\mathbf{o}_{t+n} = \mathcal{D}(\mathcal{C}(\mathbf{o}_t, \mathbf{h}_t))\]

连接器 $\mathcal{C}$ 将骨干输出 + 当前图像映射为 DVF 的条件输入。残差连接让当前帧信息直接传入 DVF → 捕获帧间动态变化。

第三步：动作头预测动作序列

\[\mathbf{a}_{t:t+n} = \pi(\mathcal{P}(\mathbf{o}_t, l, \text{[LAT]}, \text{[ACT]}))\]

[ACT]：6 个动作查询。

多间隔查询（Multi-Gap Queries）

[GAP] 查询让 DVF 可以预测不同时间间隔的未来帧：

\[\text{[GAP]} = 6 \times 3 = 18 \text{ 个查询}\]

覆盖 1-6 步的时间间隔 → 既能预测近期变化也能预测远期目标。

2. 三阶段渐进训练

Stage 1：多间隔视觉训练

配置	值
数据	SSV2（220K 人类操控视频）
冻结	骨干（保持语言能力）
训练	DVF 头 + [LAT] + [GAP]
损失	$\mathcal{L}_\text{DVF}$（扩散损失）
时间间隔	随机 1-6 步
时长	1 epoch

Stage 2：视觉-动作联合训练

配置	值
数据	DROID（76K 机器人演示）
冻结	骨干
训练	[ACT] 查询
损失	$\alpha \mathcal{L}\text{DVF} + \mathcal{L}\text{action}$，$\alpha = 0.1$
时长	1 epoch

Stage 3：语言监督混合训练

配置	值
数据	38 个多模态数据集 + DROID
解冻	骨干
损失	$\alpha \mathcal{L}\text{DVF} + \mathcal{L}\text{action} + \beta \mathcal{L}_\text{lang}$
$\alpha = 0.1, \beta = 0.005$
时长	1.5 epochs

关键：Stage 3 解冻骨干但混合语言损失 → 在学习动作的同时保持语言理解。

3. 自适应时间集成（ATE）

推理时，标准的时间集成（Temporal Ensemble）在每一步都做集成 → 计算量大。ATE 动态决定何时需要集成：

目标 patch：语言指令关注的图像区域（通过 text-to-vision 注意力分数确定，top 1%）

动态 patch：当前帧与上一帧变化最大的区域（余弦相似度最低的 top 12%）

决策逻辑：

动态 patch 与目标 patch 有重叠 → 激活时间集成（正在进行精细操控）
无重叠 → 跳过集成（粗糙移动阶段不需要）

效果：推理次数减少约 50%，性能基本不变。

实验结果

LIBERO 仿真基准

方法	Spatial	Object	Goal	Long	平均
π₀	96.8	98.8	95.8	85.2	94.2
UnifiedVLA	95.4	98.8	93.6	94.0	95.5
$\mathcal{F}_1$	98.2	97.8	95.4	91.3	95.7
Mantis	98.8	99.2	94.4	94.2	96.7

收敛速度

在 LIBERO Spatial 上训练 20 epochs：

Mantis / UniVLA（有潜在动作监督）：快速收敛
UnifiedVLA（耦合预见）：前 10 epochs 成功率为零 → 收敛极慢

结论：解耦预见与动作学习对高效优化至关重要。

真实世界实验（vs π₀.₅）

3 个场景，每个场景 4 个域内（ID）+ 4 个域外（OOD）指令：

场景	Mantis ID	Mantis OOD	π₀.₅ ID	π₀.₅ OOD
世界知识	8.25/10	8.25/10	7.75/10	3.5/10
基础运算	9.25/10	7.75/10	8.25/10	2.5/10
语义理解	6/10	3.75/10	5.75/10	2.5/10

π₀.₅ 在 OOD 指令上几乎完全失败（2.5-3.5/10），而 Mantis 保持 3.75-8.25/10 → 语言监督训练有效保持了泛化能力。

DVF 架构消融

变体	平均成功率
无 DVF	91.3%
有缺陷 DVF（无残差）	94.4%
标准 DVF	95.7%
预训练 DVF	96.2%

DVF 对动作学习有显著正面影响。

语言能力保持

模型	MME	OCRBench	RealWorldQA
Qwen2.5-VL（原始）	2217.3	807	62.1
Mantis	2070.2	757	56.9

仅有轻微退化——语言监督训练成功保持了大部分语言能力。

个人思考

解耦是关键设计选择：UnifiedVLA 前 10 epochs 成功率为零 → 耦合的视觉预测和动作预测确实互相干扰严重。
三阶段渐进训练巧妙地管理了模态竞争：先训练视觉 → 再加动作 → 最后解冻骨干加语言监督，每步都有明确目的。
π₀.₅ 在 OOD 上的失败说明不带语言监督的 VLA 训练会灾难性遗忘预训练知识——Mantis 的 $\beta \mathcal{L}_\text{lang}$ 是必要的防线。
ATE 的 50% 推理节省来自简单直觉：粗糙移动时不需要精细集成——这种”该精细时精细、该粗糙时粗糙”的策略值得推广。
5.8B 参数对机器人部署来说仍然很大——未来需要蒸馏或量化来提高推理效率。

← 返回列表