Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight
核心思想
视觉-语言-动作模型(VLA) 是将预训练的多模态大模型扩展到机器人控制的新范式。但现有 VLA 有两个问题:
- 视觉预测与动作学习耦合:预测未来帧和预测动作共享同一骨干网络 → 互相干扰
- 微调后语言能力退化:训练动作预测会破坏预训练的语言理解
Mantis 提出解耦视觉预见(DVF):
- 用 meta queries 从骨干提取动力学特征 → 输入独立的扩散 Transformer 预测未来帧
- 骨干网络不承担视觉预测负担 → 保持语言理解能力
- 三阶段渐进训练防止模态竞争
结果:LIBERO 基准 96.7% 成功率,真实世界超越 π₀.₅。
背景知识
什么是 VLA 模型
| 组件 | 功能 | 示例 |
|---|---|---|
| Vision Encoder | 理解图像 | CLIP, SigLIP |
| Language Model | 理解指令、推理 | LLaMA, Qwen |
| Action Head | 输出机器人动作 | MLP, DiT |
VLA = 用一个统一模型处理”看”(Vision)+ “理解”(Language)+ “动”(Action)。
视觉预见(Visual Foresight)为什么有用
预测”如果执行这个动作,未来会看到什么”——这迫使模型理解物理世界的因果关系:
- 推杯子 → 杯子向右移动
- 开抽屉 → 看到抽屉内部
问题:如果视觉预测和动作预测耦合在同一骨干中,优化目标冲突 → 收敛慢、性能差。
为什么需要保持语言能力
机器人需要理解复杂指令:
- “把写着 Einstein 名字的杯子递给我”(需要世界知识)
- “帮我拿 3+4 号抽屉里的东西”(需要基础运算)
- “递给我那个水果”(需要语义理解)
如果微调后语言能力退化,机器人就无法理解这些指令。
方法详解
1. 模型架构
| 组件 | 选择 | 参数量 |
|---|---|---|
| 骨干 $\mathcal{P}$ | Qwen2.5-VL | 3.7B |
| DVF 头 $\mathcal{D}$ | Sana 扩散 Transformer | 1.4B |
| 连接器 $\mathcal{C}$ | 12 层双向注意力 Transformer | 0.3B |
| 动作头 $\pi$ | DiT + 因果注意力 | 0.3B |
| VAE | 深度压缩自编码器 | 0.3B |
| 总计 | 5.8B |
核心数据流
第一步:骨干处理当前观察 + 语言指令 + 查询 token
\[\mathbf{h}_t = \mathcal{P}(\mathbf{o}_t, l, \text{[LAT]})\]- $\mathbf{o}_t$:当前图像(主相机 512×512 + 腕部相机 256×256)
- $l$:语言指令
- [LAT]:9 个潜在动作查询(meta queries)
第二步:DVF 头预测未来帧
\[\mathbf{o}_{t+n} = \mathcal{D}(\mathcal{C}(\mathbf{o}_t, \mathbf{h}_t))\]连接器 $\mathcal{C}$ 将骨干输出 + 当前图像映射为 DVF 的条件输入。残差连接让当前帧信息直接传入 DVF → 捕获帧间动态变化。
第三步:动作头预测动作序列
\[\mathbf{a}_{t:t+n} = \pi(\mathcal{P}(\mathbf{o}_t, l, \text{[LAT]}, \text{[ACT]}))\][ACT]:6 个动作查询。
多间隔查询(Multi-Gap Queries)
[GAP] 查询让 DVF 可以预测不同时间间隔的未来帧:
\[\text{[GAP]} = 6 \times 3 = 18 \text{ 个查询}\]覆盖 1-6 步的时间间隔 → 既能预测近期变化也能预测远期目标。
2. 三阶段渐进训练
Stage 1:多间隔视觉训练
| 配置 | 值 |
|---|---|
| 数据 | SSV2(220K 人类操控视频) |
| 冻结 | 骨干(保持语言能力) |
| 训练 | DVF 头 + [LAT] + [GAP] |
| 损失 | $\mathcal{L}_\text{DVF}$(扩散损失) |
| 时间间隔 | 随机 1-6 步 |
| 时长 | 1 epoch |
Stage 2:视觉-动作联合训练
| 配置 | 值 |
|---|---|
| 数据 | DROID(76K 机器人演示) |
| 冻结 | 骨干 |
| 训练 | [ACT] 查询 |
| 损失 | $\alpha \mathcal{L}\text{DVF} + \mathcal{L}\text{action}$,$\alpha = 0.1$ |
| 时长 | 1 epoch |
Stage 3:语言监督混合训练
| 配置 | 值 |
|---|---|
| 数据 | 38 个多模态数据集 + DROID |
| 解冻 | 骨干 |
| 损失 | $\alpha \mathcal{L}\text{DVF} + \mathcal{L}\text{action} + \beta \mathcal{L}_\text{lang}$ |
| $\alpha = 0.1, \beta = 0.005$ | |
| 时长 | 1.5 epochs |
关键:Stage 3 解冻骨干但混合语言损失 → 在学习动作的同时保持语言理解。
3. 自适应时间集成(ATE)
推理时,标准的时间集成(Temporal Ensemble)在每一步都做集成 → 计算量大。ATE 动态决定何时需要集成:
目标 patch:语言指令关注的图像区域(通过 text-to-vision 注意力分数确定,top 1%)
动态 patch:当前帧与上一帧变化最大的区域(余弦相似度最低的 top 12%)
决策逻辑:
- 动态 patch 与目标 patch 有重叠 → 激活时间集成(正在进行精细操控)
- 无重叠 → 跳过集成(粗糙移动阶段不需要)
效果:推理次数减少约 50%,性能基本不变。
实验结果
LIBERO 仿真基准
| 方法 | Spatial | Object | Goal | Long | 平均 |
|---|---|---|---|---|---|
| π₀ | 96.8 | 98.8 | 95.8 | 85.2 | 94.2 |
| UnifiedVLA | 95.4 | 98.8 | 93.6 | 94.0 | 95.5 |
| $\mathcal{F}_1$ | 98.2 | 97.8 | 95.4 | 91.3 | 95.7 |
| Mantis | 98.8 | 99.2 | 94.4 | 94.2 | 96.7 |
收敛速度
在 LIBERO Spatial 上训练 20 epochs:
- Mantis / UniVLA(有潜在动作监督):快速收敛
- UnifiedVLA(耦合预见):前 10 epochs 成功率为零 → 收敛极慢
结论:解耦预见与动作学习对高效优化至关重要。
真实世界实验(vs π₀.₅)
3 个场景,每个场景 4 个域内(ID)+ 4 个域外(OOD)指令:
| 场景 | Mantis ID | Mantis OOD | π₀.₅ ID | π₀.₅ OOD |
|---|---|---|---|---|
| 世界知识 | 8.25/10 | 8.25/10 | 7.75/10 | 3.5/10 |
| 基础运算 | 9.25/10 | 7.75/10 | 8.25/10 | 2.5/10 |
| 语义理解 | 6/10 | 3.75/10 | 5.75/10 | 2.5/10 |
π₀.₅ 在 OOD 指令上几乎完全失败(2.5-3.5/10),而 Mantis 保持 3.75-8.25/10 → 语言监督训练有效保持了泛化能力。
DVF 架构消融
| 变体 | 平均成功率 |
|---|---|
| 无 DVF | 91.3% |
| 有缺陷 DVF(无残差) | 94.4% |
| 标准 DVF | 95.7% |
| 预训练 DVF | 96.2% |
DVF 对动作学习有显著正面影响。
语言能力保持
| 模型 | MME | OCRBench | RealWorldQA |
|---|---|---|---|
| Qwen2.5-VL(原始) | 2217.3 | 807 | 62.1 |
| Mantis | 2070.2 | 757 | 56.9 |
仅有轻微退化——语言监督训练成功保持了大部分语言能力。
个人思考
- 解耦是关键设计选择:UnifiedVLA 前 10 epochs 成功率为零 → 耦合的视觉预测和动作预测确实互相干扰严重。
- 三阶段渐进训练巧妙地管理了模态竞争:先训练视觉 → 再加动作 → 最后解冻骨干加语言监督,每步都有明确目的。
- π₀.₅ 在 OOD 上的失败说明不带语言监督的 VLA 训练会灾难性遗忘预训练知识——Mantis 的 $\beta \mathcal{L}_\text{lang}$ 是必要的防线。
- ATE 的 50% 推理节省来自简单直觉:粗糙移动时不需要精细集成——这种”该精细时精细、该粗糙时粗糙”的策略值得推广。
- 5.8B 参数对机器人部署来说仍然很大——未来需要蒸馏或量化来提高推理效率。