← 返回列表

DC-AE 1.5: Accelerating Diffusion Model Convergence with Structured Latent Space

作者 Junyu Chen, Dongyun Zou, Wenkun He, Junsong Chen, Enze Xie, Song Han, Han Cai
年份 2025
会议/期刊 arXiv 2025
评分
标签 图像生成 自编码器
摘要 解决高通道数 latent 空间导致扩散模型收敛慢的问题:结构化 latent 空间 + 增强扩散训练,UViT-H 收敛加速 6×

核心思想

增加自编码器的 latent 通道数理论上应该改善重建质量,但实际上会显著减慢扩散模型的收敛——导致更差的生成质量。本文发现根因是物体信息稀疏性:高通道 latent 空间中,结构信息分散在大量通道中,扩散模型难以高效学习。

DC-AE 1.5 的两个关键创新:

  1. 结构化 latent 空间:前面通道捕获物体结构,后面通道捕获图像细节
  2. 增强扩散训练:在物体通道上施加额外训练目标

方法详解

1. 问题发现:latent 空间稀疏性

通过可视化不同通道数的 latent 空间(图 2),发现:

  • c=32:物体结构清晰,信息集中
  • c=128:物体结构信息变得稀疏和模糊
  • c=256:更加稀疏

通道越多 → 结构信息越分散 → 扩散模型学习结构越困难。

2. 结构化 Latent 空间训练

2.1 通道 Masking 机制

在 AE 训练中,对 latent 应用通道级 mask:

\[\text{mask}_{c,c'} = (\underbrace{1, 1, \ldots, 1}_{c'}, \underbrace{0, 0, \ldots, 0}_{c-c'}) \tag{1}\]

其中 $c’$ 在每个训练步从预定义的通道数集合中随机采样。

修改后的损失

\[\ell(\mathbf{x}, \text{Dec}(\mathbf{z} \cdot \text{mask}_{c,c'}))\]

包含 L1 loss、感知 loss 和 GAN loss。

直觉:强制网络在只使用前 $c’$ 个通道时也能重建图像 → 自然地将最重要的结构信息集中到前面的通道。

效果验证(图 3):DC-AE-1.5 仅使用前 16 个通道即可重建有意义的物体结构,而标准 DC-AE 不能。

3. 增强扩散训练

在扩散模型训练中使用相同的通道 mask 增强去噪目标:

\[\|\boldsymbol{\varepsilon} \cdot \text{mask}_{c,c'} - \boldsymbol{\varepsilon}_\theta(\mathbf{x}_t \cdot \text{mask}_{c,c'}, t) \cdot \text{mask}_{c,c'}\|^2 \tag{2}\]

其中 $\mathbf{x}_t = \alpha_t \mathbf{x}_0 + \beta_t \boldsymbol{\varepsilon}$。

含义:让扩散模型单独练习在物体通道上去噪,加速结构学习。

公式联系:公式 (1) 的 mask 机制同时用于 AE 训练和扩散训练 → 结构化 latent 空间(公式 1)为增强扩散训练(公式 2)提供了先决条件 → 两者缺一不可。

4. 两者必须配合

配置 gFID↓ IS↑
基线 (DiT-XL) 26.44 53.41
+ 仅结构化 latent 26.75 51.07
+ 仅增强训练 36.83 42.22
+ 两者 17.31 80.38

单独使用任一技术都退化,必须配合使用。

原因:增强训练假设前面通道包含结构信息(由结构化 latent 保证);结构化 latent 需要扩散模型利用这种结构(由增强训练保证)。

实验结果

ImageNet 256×256

模型 AE gFID↓ IS↑
DiT-XL DC-AE-f32c128 26.44 53.41
DiT-XL DC-AE-1.5-f32c128 17.31 80.38
UViT-H DC-AE-f32c128 17.38 78.42
UViT-H DC-AE-1.5-f32c128 10.82 109.23
USiT-H DC-AE-f32c128 8.45 121.09
USiT-H DC-AE-1.5-f32c128 6.10 146.03

ImageNet 512×512 SOTA

模型 gFID↓ IS↑ 吞吐量
EDM2-XXL 1.91
USiT-2B + DC-AE-1.5-f64c128 2.18 237.11 450 img/s
DC-AE-f32c32 + USiT-2B 2.90

DC-AE-1.5-f64c128 达到更高质量,同时训练吞吐量 更高。

适用范围建议

通道数 推荐
小 (c=32) 标准 DC-AE(结构化无额外收益)
大 (c=128) DC-AE-1.5(显著加速收敛)

个人思考

  1. 问题发现本身就很有价值:高通道数 latent 空间的稀疏性问题此前未被明确指出。
  2. 通道级 masking的想法简单但有效:强制将信息按重要性排列——前面通道 = 结构,后面通道 = 细节。
  3. 两者缺一不可的消融结果说明这是一个协同设计——结构化空间和增强训练互为前提。
  4. 4× 更高吞吐量来自高压缩率 (f64c128),而质量不降反升——打破了”高压缩 = 低质量”的假设。
  5. 适用范围的诚实讨论值得赞赏:当 c=32 时标准方法更好,不盲目推广。
← 返回列表