← 返回列表

Mantis: A Versatile Vision-Language-Action Model with Disentangled Visual Foresight

作者 Yi Yang, Xueqi Li, Yiyang Chen, Jin Song, Yihan Wang, Zipeng Xiao, Jiadi Su, You Qiaoben, Pengfei Liu, Zhijie Deng
年份 2025
会议/期刊 arXiv 2025
评分
标签 机器人操控 VLA模型 视觉预测
摘要 解耦视觉预见(DVF)的通用 VLA 模型:meta queries + 扩散 Transformer 将未来帧预测与动作学习分离,LIBERO 96.7% 成功率,真实世界超越 π₀.₅

核心思想

视觉-语言-动作模型(VLA) 是将预训练的多模态大模型扩展到机器人控制的新范式。但现有 VLA 有两个问题:

  1. 视觉预测与动作学习耦合:预测未来帧和预测动作共享同一骨干网络 → 互相干扰
  2. 微调后语言能力退化:训练动作预测会破坏预训练的语言理解

Mantis 提出解耦视觉预见(DVF)

  • meta queries 从骨干提取动力学特征 → 输入独立的扩散 Transformer 预测未来帧
  • 骨干网络不承担视觉预测负担 → 保持语言理解能力
  • 三阶段渐进训练防止模态竞争

结果:LIBERO 基准 96.7% 成功率,真实世界超越 π₀.₅

背景知识

什么是 VLA 模型

组件 功能 示例
Vision Encoder 理解图像 CLIP, SigLIP
Language Model 理解指令、推理 LLaMA, Qwen
Action Head 输出机器人动作 MLP, DiT

VLA = 用一个统一模型处理”看”(Vision)+ “理解”(Language)+ “动”(Action)。

视觉预见(Visual Foresight)为什么有用

预测”如果执行这个动作,未来会看到什么”——这迫使模型理解物理世界的因果关系:

  • 推杯子 → 杯子向右移动
  • 开抽屉 → 看到抽屉内部

问题:如果视觉预测和动作预测耦合在同一骨干中,优化目标冲突 → 收敛慢、性能差。

为什么需要保持语言能力

机器人需要理解复杂指令:

  • “把写着 Einstein 名字的杯子递给我”(需要世界知识)
  • “帮我拿 3+4 号抽屉里的东西”(需要基础运算)
  • “递给我那个水果”(需要语义理解)

如果微调后语言能力退化,机器人就无法理解这些指令

方法详解

1. 模型架构

组件 选择 参数量
骨干 $\mathcal{P}$ Qwen2.5-VL 3.7B
DVF 头 $\mathcal{D}$ Sana 扩散 Transformer 1.4B
连接器 $\mathcal{C}$ 12 层双向注意力 Transformer 0.3B
动作头 $\pi$ DiT + 因果注意力 0.3B
VAE 深度压缩自编码器 0.3B
总计   5.8B

核心数据流

第一步:骨干处理当前观察 + 语言指令 + 查询 token

\[\mathbf{h}_t = \mathcal{P}(\mathbf{o}_t, l, \text{[LAT]})\]
  • $\mathbf{o}_t$:当前图像(主相机 512×512 + 腕部相机 256×256)
  • $l$:语言指令
  • [LAT]:9 个潜在动作查询(meta queries)

第二步:DVF 头预测未来帧

\[\mathbf{o}_{t+n} = \mathcal{D}(\mathcal{C}(\mathbf{o}_t, \mathbf{h}_t))\]

连接器 $\mathcal{C}$ 将骨干输出 + 当前图像映射为 DVF 的条件输入。残差连接让当前帧信息直接传入 DVF → 捕获帧间动态变化。

第三步:动作头预测动作序列

\[\mathbf{a}_{t:t+n} = \pi(\mathcal{P}(\mathbf{o}_t, l, \text{[LAT]}, \text{[ACT]}))\]

[ACT]:6 个动作查询

多间隔查询(Multi-Gap Queries)

[GAP] 查询让 DVF 可以预测不同时间间隔的未来帧:

\[\text{[GAP]} = 6 \times 3 = 18 \text{ 个查询}\]

覆盖 1-6 步的时间间隔 → 既能预测近期变化也能预测远期目标。

2. 三阶段渐进训练

Stage 1:多间隔视觉训练

配置
数据 SSV2(220K 人类操控视频)
冻结 骨干(保持语言能力)
训练 DVF 头 + [LAT] + [GAP]
损失 $\mathcal{L}_\text{DVF}$(扩散损失)
时间间隔 随机 1-6 步
时长 1 epoch

Stage 2:视觉-动作联合训练

配置
数据 DROID(76K 机器人演示)
冻结 骨干
训练 [ACT] 查询
损失 $\alpha \mathcal{L}\text{DVF} + \mathcal{L}\text{action}$,$\alpha = 0.1$
时长 1 epoch

Stage 3:语言监督混合训练

配置
数据 38 个多模态数据集 + DROID
解冻 骨干
损失 $\alpha \mathcal{L}\text{DVF} + \mathcal{L}\text{action} + \beta \mathcal{L}_\text{lang}$
$\alpha = 0.1, \beta = 0.005$  
时长 1.5 epochs

关键:Stage 3 解冻骨干但混合语言损失 → 在学习动作的同时保持语言理解

3. 自适应时间集成(ATE)

推理时,标准的时间集成(Temporal Ensemble)在每一步都做集成 → 计算量大。ATE 动态决定何时需要集成:

目标 patch:语言指令关注的图像区域(通过 text-to-vision 注意力分数确定,top 1%)

动态 patch:当前帧与上一帧变化最大的区域(余弦相似度最低的 top 12%)

决策逻辑

  • 动态 patch 与目标 patch 有重叠 → 激活时间集成(正在进行精细操控)
  • 无重叠 → 跳过集成(粗糙移动阶段不需要)

效果:推理次数减少约 50%,性能基本不变。

实验结果

LIBERO 仿真基准

方法 Spatial Object Goal Long 平均
π₀ 96.8 98.8 95.8 85.2 94.2
UnifiedVLA 95.4 98.8 93.6 94.0 95.5
$\mathcal{F}_1$ 98.2 97.8 95.4 91.3 95.7
Mantis 98.8 99.2 94.4 94.2 96.7

收敛速度

在 LIBERO Spatial 上训练 20 epochs:

  • Mantis / UniVLA(有潜在动作监督):快速收敛
  • UnifiedVLA(耦合预见):前 10 epochs 成功率为零 → 收敛极慢

结论:解耦预见与动作学习对高效优化至关重要。

真实世界实验(vs π₀.₅)

3 个场景,每个场景 4 个域内(ID)+ 4 个域外(OOD)指令:

场景 Mantis ID Mantis OOD π₀.₅ ID π₀.₅ OOD
世界知识 8.25/10 8.25/10 7.75/10 3.5/10
基础运算 9.25/10 7.75/10 8.25/10 2.5/10
语义理解 6/10 3.75/10 5.75/10 2.5/10

π₀.₅ 在 OOD 指令上几乎完全失败(2.5-3.5/10),而 Mantis 保持 3.75-8.25/10 → 语言监督训练有效保持了泛化能力

DVF 架构消融

变体 平均成功率
无 DVF 91.3%
有缺陷 DVF(无残差) 94.4%
标准 DVF 95.7%
预训练 DVF 96.2%

DVF 对动作学习有显著正面影响

语言能力保持

模型 MME OCRBench RealWorldQA
Qwen2.5-VL(原始) 2217.3 807 62.1
Mantis 2070.2 757 56.9

仅有轻微退化——语言监督训练成功保持了大部分语言能力。

个人思考

  1. 解耦是关键设计选择:UnifiedVLA 前 10 epochs 成功率为零 → 耦合的视觉预测和动作预测确实互相干扰严重。
  2. 三阶段渐进训练巧妙地管理了模态竞争:先训练视觉 → 再加动作 → 最后解冻骨干加语言监督,每步都有明确目的。
  3. π₀.₅ 在 OOD 上的失败说明不带语言监督的 VLA 训练会灾难性遗忘预训练知识——Mantis 的 $\beta \mathcal{L}_\text{lang}$ 是必要的防线。
  4. ATE 的 50% 推理节省来自简单直觉:粗糙移动时不需要精细集成——这种”该精细时精细、该粗糙时粗糙”的策略值得推广。
  5. 5.8B 参数对机器人部署来说仍然很大——未来需要蒸馏或量化来提高推理效率。
← 返回列表