← 返回列表

DC-AE 1.5: Accelerating Diffusion Model Convergence with Structured Latent Space

作者 Junyu Chen, Dongyun Zou, Wenkun He, Junsong Chen, Enze Xie, Song Han, Han Cai

年份 2025

会议/期刊 arXiv 2025

评分 ★ ★ ★ ★ ★

标签图像生成自编码器

摘要解决高通道数 latent 空间导致扩散模型收敛慢的问题：结构化 latent 空间 + 增强扩散训练，UViT-H 收敛加速 6×

论文原文代码仓库

核心思想

增加自编码器的 latent 通道数理论上应该改善重建质量，但实际上会显著减慢扩散模型的收敛——导致更差的生成质量。本文发现根因是物体信息稀疏性：高通道 latent 空间中，结构信息分散在大量通道中，扩散模型难以高效学习。

DC-AE 1.5 的两个关键创新：

结构化 latent 空间：前面通道捕获物体结构，后面通道捕获图像细节
增强扩散训练：在物体通道上施加额外训练目标

方法详解

1. 问题发现：latent 空间稀疏性

通过可视化不同通道数的 latent 空间（图 2），发现：

c=32：物体结构清晰，信息集中
c=128：物体结构信息变得稀疏和模糊
c=256：更加稀疏

通道越多 → 结构信息越分散 → 扩散模型学习结构越困难。

2. 结构化 Latent 空间训练

2.1 通道 Masking 机制

在 AE 训练中，对 latent 应用通道级 mask：

\[\text{mask}_{c,c'} = (\underbrace{1, 1, \ldots, 1}_{c'}, \underbrace{0, 0, \ldots, 0}_{c-c'}) \tag{1}\]

其中 $c’$ 在每个训练步从预定义的通道数集合中随机采样。

修改后的损失：

\[\ell(\mathbf{x}, \text{Dec}(\mathbf{z} \cdot \text{mask}_{c,c'}))\]

包含 L1 loss、感知 loss 和 GAN loss。

直觉：强制网络在只使用前 $c’$ 个通道时也能重建图像 → 自然地将最重要的结构信息集中到前面的通道。

效果验证（图 3）：DC-AE-1.5 仅使用前 16 个通道即可重建有意义的物体结构，而标准 DC-AE 不能。

3. 增强扩散训练

在扩散模型训练中使用相同的通道 mask 增强去噪目标：

\[\|\boldsymbol{\varepsilon} \cdot \text{mask}_{c,c'} - \boldsymbol{\varepsilon}_\theta(\mathbf{x}_t \cdot \text{mask}_{c,c'}, t) \cdot \text{mask}_{c,c'}\|^2 \tag{2}\]

其中 $\mathbf{x}_t = \alpha_t \mathbf{x}_0 + \beta_t \boldsymbol{\varepsilon}$。

含义：让扩散模型单独练习在物体通道上去噪，加速结构学习。

公式联系：公式 (1) 的 mask 机制同时用于 AE 训练和扩散训练 → 结构化 latent 空间（公式 1）为增强扩散训练（公式 2）提供了先决条件 → 两者缺一不可。

4. 两者必须配合

配置	gFID↓	IS↑
基线 (DiT-XL)	26.44	53.41
+ 仅结构化 latent	26.75	51.07
+ 仅增强训练	36.83	42.22
+ 两者	17.31	80.38

单独使用任一技术都退化，必须配合使用。

原因：增强训练假设前面通道包含结构信息（由结构化 latent 保证）；结构化 latent 需要扩散模型利用这种结构（由增强训练保证）。

实验结果

ImageNet 256×256

模型	AE	gFID↓	IS↑
DiT-XL	DC-AE-f32c128	26.44	53.41
DiT-XL	DC-AE-1.5-f32c128	17.31	80.38
UViT-H	DC-AE-f32c128	17.38	78.42
UViT-H	DC-AE-1.5-f32c128	10.82	109.23
USiT-H	DC-AE-f32c128	8.45	121.09
USiT-H	DC-AE-1.5-f32c128	6.10	146.03

ImageNet 512×512 SOTA

模型	gFID↓	IS↑	吞吐量
EDM2-XXL	1.91	—	—
USiT-2B + DC-AE-1.5-f64c128	2.18	237.11	450 img/s
DC-AE-f32c32 + USiT-2B	2.90	—	—

DC-AE-1.5-f64c128 达到更高质量，同时训练吞吐量 4× 更高。

适用范围建议

通道数	推荐
小 (c=32)	标准 DC-AE（结构化无额外收益）
大 (c=128)	DC-AE-1.5（显著加速收敛）

个人思考

问题发现本身就很有价值：高通道数 latent 空间的稀疏性问题此前未被明确指出。
通道级 masking的想法简单但有效：强制将信息按重要性排列——前面通道 = 结构，后面通道 = 细节。
两者缺一不可的消融结果说明这是一个协同设计——结构化空间和增强训练互为前提。
4× 更高吞吐量来自高压缩率 (f64c128)，而质量不降反升——打破了”高压缩 = 低质量”的假设。
适用范围的诚实讨论值得赞赏：当 c=32 时标准方法更好，不盲目推广。

← 返回列表