Improved Mean Flows: On the Challenges of Fastforward Generative Models
核心思想
原始 MeanFlow 虽然实现了单步生成,但存在三个关键挑战:(1) 训练目标依赖网络自身,导致不稳定;(2) CFG 引导尺度在训练时固定;(3) 条件处理参数量大。本文提出 improved MeanFlow (iMF),逐一解决这些问题,将 FID 从 3.43 降至 1.72(相对提升 50%)。

方法详解
1. 预备知识
1.1 线性时间表与条件速度
\[\mathbf{z}_t = (1-t)\mathbf{x} + t\mathbf{e}, \quad \mathbf{v}_c = \mathbf{e} - \mathbf{x}\]| 其中 $\mathbf{x} \sim p_\text{data}$,$\mathbf{e} \sim p_\text{prior}$。边际速度为 $\mathbf{v}(\mathbf{z}_t, t) \triangleq \mathbb{E}[\mathbf{v}_c | \mathbf{z}_t]$。 |
1.2 平均速度定义
\[\mathbf{u}(\mathbf{z}_t, r, t) \triangleq \frac{1}{t-r}\int_r^t \mathbf{v}(\mathbf{z}_\tau) \, d\tau \tag{3}\]1.3 MeanFlow 恒等式
\[\mathbf{u}(\mathbf{z}_t) = \mathbf{v}(\mathbf{z}_t) - (t-r)\frac{d}{dt}\mathbf{u}(\mathbf{z}_t) \tag{4}\]时间导数通过 JVP 计算:
\[\frac{d}{dt}\mathbf{u}(\mathbf{z}_t) = \partial_z \mathbf{u}(\mathbf{z}_t) \cdot \mathbf{v}(\mathbf{z}_t) + \partial_t \mathbf{u}(\mathbf{z}_t) \triangleq \text{JVP}(\mathbf{u}; \mathbf{v}) \tag{5}\]2. 挑战一:网络依赖的训练目标 → v-loss 重参数化
2.1 原始 MF 的问题
原始 MF 的训练目标:
\[\mathbf{u}_\text{tgt} = (\mathbf{e} - \mathbf{x}) - (t-r) \cdot \text{JVP}(\mathbf{u}_\theta; \mathbf{e} - \mathbf{x}) \tag{6}\] \[\mathcal{L}_\text{MF} = \mathbb{E}_{t,r,\mathbf{x},\mathbf{e}} \|\mathbf{u}_\theta - \text{sg}(\mathbf{u}_\text{tgt})\|^2 \tag{7}\]问题:目标 $\mathbf{u}\text{tgt}$ 中包含 $\mathbf{u}\theta$ 本身(通过 JVP),这不是一个标准的回归问题。训练损失非单调递减,方差大。
2.2 v-loss 重参数化(核心改进)
从 MeanFlow 恒等式 (4) 出发,重新整理为:
\[\mathbf{v}(\mathbf{z}_t) = \mathbf{u}(\mathbf{z}_t) + (t-r)\frac{d}{dt}\mathbf{u}(\mathbf{z}_t) \tag{8}\]定义复合预测:
\[\boxed{\mathbf{V}_\theta(\mathbf{z}_t) \triangleq \mathbf{u}_\theta(\mathbf{z}_t) + (t-r) \cdot \text{JVP}_\text{sg}(\mathbf{u}_\theta; \mathbf{v}_\theta)} \tag{12}\]v-loss:
\[\mathcal{L}_\text{v} = \mathbb{E}_{t,r,\mathbf{x},\mathbf{e}} \|\mathbf{V}_\theta - (\mathbf{e} - \mathbf{x})\|^2\]关键改进:原始 MF 的 JVP 输入是条件速度 $(\mathbf{e} - \mathbf{x})$(依赖数据对),而 iMF 用 $\mathbf{v}\theta$ 替代——$\mathbf{v}\theta$ 只依赖 $\mathbf{z}_t$,不依赖具体的 $(\mathbf{x}, \mathbf{e})$ 对。
$\mathbf{v}_\theta$ 的两种实现:
- 边界条件(推荐):$\mathbf{v}\theta(\mathbf{z}_t, t) \equiv \mathbf{u}\theta(\mathbf{z}_t, t, t)$,无额外参数
- 辅助头:从 $\mathbf{u}\theta$ 的特征加一个轻量头预测 $\mathbf{v}\theta$
公式关系链:
- 公式 (4) → 恒等式的等价变换 → 公式 (8)
- 公式 (8) 用网络替代 → 公式 (12)
- 公式 (12) 与真实速度 $(\mathbf{e} - \mathbf{x})$ 做回归 → 标准的 v-loss
- v-loss 消除了目标对网络本身的依赖 → 训练更稳定

3. 挑战二:固定引导尺度 → 灵活 CFG 条件化
3.1 原始 MF 的固定 CFG
\[\mathbf{v}_\text{cfg}(\mathbf{z}_t | \mathbf{c}) = \omega \, \mathbf{v}(\mathbf{z}_t | \mathbf{c}) + (1 - \omega) \, \mathbf{v}(\mathbf{z}_t) \tag{13}\]原始 MF 在训练时固定 $\omega$,模型只能在该 $\omega$ 下生成。
3.2 改进:将 ω 作为条件变量
\[\mathbf{V}_\theta(\cdot | \mathbf{c}, \omega) \triangleq \mathbf{u}_\theta(\mathbf{z}_t | \mathbf{c}, \omega) + (t-r) \cdot \text{JVP}_\text{sg} \tag{15}\]训练时随机采样 $\omega \in [1.0, 8.0]$,推理时可自由调整。
进一步扩展:支持 CFG 间隔 $[t_\text{min}, t_\text{max}]$,完整条件集 $\Omega = {\omega, t_\text{min}, t_\text{max}}$:
\[\mathbf{u}_\theta = \mathbf{u}_\theta(\mathbf{z}_t \mid r, t, \mathbf{c}, \Omega) \tag{16}\]3.3 CFG 目标计算
\[\mathbf{v}_\text{cfg} = (\mathbf{e} - \mathbf{x}) + \left(1 - \frac{1}{\omega}\right)\big(\mathbf{u}_\theta(\mathbf{z}_t | t, t, \mathbf{c}) - \mathbf{u}_\theta(\mathbf{z}_t | t, t, \varnothing)\big) \tag{17}\]
4. 挑战三:条件处理效率 → 上下文条件化
原始方法使用 adaLN-zero 处理条件,参数量大。iMF 改用多 token 上下文条件化:
- 每个条件类型生成多个 token(类别 8 个,$r, t, \Omega$ 各 4 个)
- 沿序列轴与图像 token 拼接
- 完全移除 adaLN-zero 层
效果:参数从 133M 降至 89M(减少 33%),FID 同时改善(4.57 → 4.09)。

5. 单步采样
\[\mathbf{z}_0 = \mathbf{z}_1 - \mathbf{u}_\theta(\mathbf{z}_1)\]其中 $(r, t) = (0, 1)$,$\mathbf{z}1 \sim p\text{prior}$。单次前向传播完成生成。
实验结果
逐步消融(ImageNet 256×256, 1-NFE)
| 改进 | FID ↓ |
|---|---|
| 原始 MF | 6.17 |
| + v-loss(边界条件 $\mathbf{v}_\theta$) | 5.97 |
| + v-loss(辅助头 $\mathbf{v}_\theta$) | 5.68 |
| + $\omega$ 条件化 | 5.52 |
| + $\Omega$ 条件化 | 4.57 |
| + 上下文条件化(−33% 参数) | 4.09 |
| + 高级 Transformer | 3.82 |
| + 640 轮训练 | 3.39 |

系统级结果
| 模型 | 参数量 | FID ↓ | IS ↑ |
|---|---|---|---|
| MF-XL/2 | 676M | 3.43 | 247.5 |
| iMF-XL/2 | 610M | 1.72 | 282.0 |
相对改进 50%(3.43 → 1.72),参数量还减少了 10%。
与其他 1-NFE 方法对比(从头训练,无蒸馏)
| 方法 | 参数量 | FID ↓ |
|---|---|---|
| iCT-XL/2 | 675M | 34.24 |
| Shortcut-XL/2 | 675M | 10.60 |
| MeanFlow-XL/2 | 676M | 3.43 |
| iMF-XL/2 | 610M | 1.72 |
iMF 以显著优势领先所有从头训练的单步方法。
2-NFE 结果
iMF-XL/2(2-NFE): FID = 1.54,进一步接近多步方法。
个人思考
- v-loss 重参数化是核心贡献:将非标准回归问题转化为标准回归,训练稳定性大幅提升。这个 insight 也被 pMF 采用。
- 灵活 CFG 非常实用:单个模型训练后可以在推理时自由调整引导强度,省去了为不同 $\omega$ 分别训练的开销。
- 上下文条件化的「参数更少效果更好」现象值得关注:adaLN-zero 的逐层调制可能过度参数化了。
- 与 pMF 的互补关系:iMF 工作在潜在空间,pMF 将其扩展到像素空间。两者共享 v-loss 框架,但 pMF 额外引入了流形假设(x-prediction)。
- 1.72 FID 的意义:这是首个从头训练(无蒸馏)的单步方法突破 FID 2.0 的结果。