SoundCTM: Uniting Score-based and Consistency Models for Text-to-Sound Generation
核心思想
文本到声音生成需要快速且高质量。现有方法要么需要很多步(扩散模型,200 步),要么一步生成质量不够(一致性模型)。
SoundCTM 提出音频领域的一致性轨迹模型:
- 用教师网络本身做特征提取器 → 不需要外部预训练特征网络
- 训练时随机采样 CFG 强度 → 推理时灵活调节
- 用 ν 插值在条件和无条件生成之间混合 → 可以超越教师质量
结果:1 步 FAD 2.08,16 步 FAD 1.38(超越 200 步扩散教师)。
背景知识
一致性轨迹模型(CTM)
CTM 学习 ODE 轨迹上任意两点之间的映射:
\[G_\theta(z_t, c, \omega, t, s) = \frac{s}{t} z_t + \left(1 - \frac{s}{t}\right) g_\theta(z_t, c, \omega, t, s)\]- 当 $s = 0$:直接映射到干净样本(1 步生成)
- 当 $s > 0$:映射到中间点(可以多步细化)
CTM 应用于音频的挑战
| 挑战 | 图像领域方案 | 音频领域问题 |
|---|---|---|
| 特征距离 | LPIPS(ImageNet 预训练) | 无成熟的音频感知特征网络 |
| 对抗损失 | GAN 鉴别器 | 音频鉴别器不稳定 |
| 外部特征器 | VGG、CLIP | 占用大量内存 |
方法详解
1. 教师网络做特征提取器
核心思想:不需要外部预训练网络,直接用扩散教师网络的中间层特征做距离度量。
\[d_{\text{teacher}} = \text{距离}(f_m^{\text{teacher}}(z_s), f_m^{\text{teacher}}(\hat{z}_s))\]- $f_m^{\text{teacher}}$:教师网络第 $m$ 层的通道归一化输出特征
- 优势:不增加额外内存、不需要下载预训练权重
2. 灵活 CFG 训练
训练时将 CFG 强度 $\omega$ 从 $[\omega_{\min}, \omega_{\max}]$ 均匀采样:
\[\omega \sim U(\omega_{\min}, \omega_{\max})\]模型同时学习在不同 CFG 强度下的轨迹映射 → 推理时可以自由调节文本条件的强度。
3. ν 插值采样
在文本条件和无条件的学生模型之间插值:
\[z_{s|t} = \nu \cdot G_\theta(z_t, c_{\text{text}}, \omega, t, s) + (1 - \nu) \cdot G_\theta(z_t, \varnothing, \omega, t, s)\]- $\nu = 1$:纯条件生成
- $\nu < 1$:混合无条件信号 → 增加多样性
- 适当的 $\nu$ 可以超越教师模型
4. 训练目标
\[\mathcal{L}(\theta) = \mathcal{L}_{\text{CTM}}^{\text{Sound}} + \lambda_{\text{DSM}} \cdot \mathcal{L}_{\text{DSM}}^{\text{Sound}}\]- $\mathcal{L}_{\text{CTM}}^{\text{Sound}}$:一致性轨迹匹配(教师特征距离)
- $\mathcal{L}_{\text{DSM}}^{\text{Sound}}$:去噪分数匹配(保持扩散能力)
- 自适应加权:通过梯度范数比率自动平衡
5. 与标准 CTM 的区别
| 设计 | 标准 CTM | SoundCTM |
|---|---|---|
| 特征提取器 | LPIPS(外部网络) | 教师网络中间层 |
| 对抗损失 | GAN 鉴别器 | 无(DSM 替代) |
| CFG | 固定强度 | 训练时随机采样 |
| 采样策略 | 标准 | ν 插值 |
实验结果
数据集与评估
- 数据集:AudioCaps(47,289 训练对,957 测试对,16 kHz)
- 教师模型:TANGO(EDM 基础,40 步扩散)
- 评估指标:FAD(音频质量↓)、IS(多样性↑)、CLAP(文本对齐↑)
主要结果
| 模型 | 步数 | FAD_vgg↓ | IS_passt↑ | CLAP↑ |
|---|---|---|---|---|
| AudioLDM2-L | 200 | 1.86 | — | — |
| TANGO(教师) | 200 | 1.64 | 6.35 | 0.44 |
| ConsistencyTTA | 1 | 2.58 | 6.85 | 0.41 |
| SoundCTM | 1 | 2.08 | 7.13 | 0.43 |
| SoundCTM | 16 | 1.38 | 8.24 | 0.46 |
- 1 步:比 ConsistencyTTA 好 0.50 FAD
- 16 步:超越 200 步扩散教师(1.38 vs 1.64)
- 实时生成:RTF 0.24(单 GPU 上 2.43 秒生成 10 秒音频)
特征提取器消融
| 特征距离 | 1-step FAD↓ |
|---|---|
| $d_{\text{teacher}}$ | 2.18 |
| L2 at 0-time | 2.43 |
| L2 at s-time | 2.45 |
教师特征距离显著优于简单的 L2 距离。
可控生成(音量控制)
| 方法 | 步数 | MSE↓ | FAD↓ | CLAP↑ |
|---|---|---|---|---|
| $z_T$ 优化 | 1 | 6.57 | 4.94 | 0.34 |
| 基于损失的引导 | 16 | 18.5 | 3.04 | 0.41 |
支持无需训练的音量控制,比 DITTO 快 ~10×。
个人思考
- “教师即特征提取器” 是优雅的简化:音频领域缺乏像 LPIPS 这样的标准感知距离 → 直接用教师网络的特征层避免了这个问题。
- ν 插值超越教师说明一致性模型不仅是”加速版扩散”,它学到了轨迹的结构性信息 → 通过混合可以探索更好的生成分布。
- 去掉 GAN 损失反而更好——音频鉴别器的训练不稳定性会传播到主模型 → DSM 损失提供了更稳定的替代。
- 灵活 CFG 训练使一个模型适应多种场景:创意生成(低 CFG)vs 精确匹配文本(高 CFG)→ 部署时不需要多个模型。
- RTF 0.24 的实时性使文本到声音可以用在交互式应用中(如游戏音效、实时配音)。