← 返回列表

SoundCTM: Uniting Score-based and Consistency Models for Text-to-Sound Generation

作者 Koichi Saito, Dongjun Kim, Takashi Shibuya, Chieh-Hsin Lai, Zhi Zhong, Yuhta Takida, Yuki Mitsufuji
年份 2024
会议/期刊 arXiv 2024
评分
标签 音频生成 一致性模型 扩散模型
摘要 文本到声音的一致性轨迹模型:教师网络做特征提取器 + 灵活 CFG 训练 + ν 插值采样,1 步 FAD 2.08 超 ConsistencyTTA,16 步 FAD 1.38 超扩散教师

核心思想

文本到声音生成需要快速且高质量。现有方法要么需要很多步(扩散模型,200 步),要么一步生成质量不够(一致性模型)。

SoundCTM 提出音频领域的一致性轨迹模型:

  1. 教师网络本身做特征提取器 → 不需要外部预训练特征网络
  2. 训练时随机采样 CFG 强度 → 推理时灵活调节
  3. ν 插值在条件和无条件生成之间混合 → 可以超越教师质量

结果:1 步 FAD 2.08,16 步 FAD 1.38(超越 200 步扩散教师)。

背景知识

一致性轨迹模型(CTM)

CTM 学习 ODE 轨迹上任意两点之间的映射:

\[G_\theta(z_t, c, \omega, t, s) = \frac{s}{t} z_t + \left(1 - \frac{s}{t}\right) g_\theta(z_t, c, \omega, t, s)\]
  • 当 $s = 0$:直接映射到干净样本(1 步生成)
  • 当 $s > 0$:映射到中间点(可以多步细化)

CTM 应用于音频的挑战

挑战 图像领域方案 音频领域问题
特征距离 LPIPS(ImageNet 预训练) 无成熟的音频感知特征网络
对抗损失 GAN 鉴别器 音频鉴别器不稳定
外部特征器 VGG、CLIP 占用大量内存

方法详解

1. 教师网络做特征提取器

核心思想:不需要外部预训练网络,直接用扩散教师网络的中间层特征做距离度量。

\[d_{\text{teacher}} = \text{距离}(f_m^{\text{teacher}}(z_s), f_m^{\text{teacher}}(\hat{z}_s))\]
  • $f_m^{\text{teacher}}$:教师网络第 $m$ 层的通道归一化输出特征
  • 优势:不增加额外内存、不需要下载预训练权重

2. 灵活 CFG 训练

训练时将 CFG 强度 $\omega$ 从 $[\omega_{\min}, \omega_{\max}]$ 均匀采样:

\[\omega \sim U(\omega_{\min}, \omega_{\max})\]

模型同时学习在不同 CFG 强度下的轨迹映射 → 推理时可以自由调节文本条件的强度。

3. ν 插值采样

在文本条件和无条件的学生模型之间插值:

\[z_{s|t} = \nu \cdot G_\theta(z_t, c_{\text{text}}, \omega, t, s) + (1 - \nu) \cdot G_\theta(z_t, \varnothing, \omega, t, s)\]
  • $\nu = 1$:纯条件生成
  • $\nu < 1$:混合无条件信号 → 增加多样性
  • 适当的 $\nu$ 可以超越教师模型

4. 训练目标

\[\mathcal{L}(\theta) = \mathcal{L}_{\text{CTM}}^{\text{Sound}} + \lambda_{\text{DSM}} \cdot \mathcal{L}_{\text{DSM}}^{\text{Sound}}\]
  • $\mathcal{L}_{\text{CTM}}^{\text{Sound}}$:一致性轨迹匹配(教师特征距离)
  • $\mathcal{L}_{\text{DSM}}^{\text{Sound}}$:去噪分数匹配(保持扩散能力)
  • 自适应加权:通过梯度范数比率自动平衡

5. 与标准 CTM 的区别

设计 标准 CTM SoundCTM
特征提取器 LPIPS(外部网络) 教师网络中间层
对抗损失 GAN 鉴别器 无(DSM 替代)
CFG 固定强度 训练时随机采样
采样策略 标准 ν 插值

实验结果

数据集与评估

  • 数据集:AudioCaps(47,289 训练对,957 测试对,16 kHz)
  • 教师模型:TANGO(EDM 基础,40 步扩散)
  • 评估指标:FAD(音频质量↓)、IS(多样性↑)、CLAP(文本对齐↑)

主要结果

模型 步数 FAD_vgg↓ IS_passt↑ CLAP↑
AudioLDM2-L 200 1.86
TANGO(教师) 200 1.64 6.35 0.44
ConsistencyTTA 1 2.58 6.85 0.41
SoundCTM 1 2.08 7.13 0.43
SoundCTM 16 1.38 8.24 0.46
  • 1 步:比 ConsistencyTTA 好 0.50 FAD
  • 16 步:超越 200 步扩散教师(1.38 vs 1.64)
  • 实时生成:RTF 0.24(单 GPU 上 2.43 秒生成 10 秒音频)

特征提取器消融

特征距离 1-step FAD↓
$d_{\text{teacher}}$ 2.18
L2 at 0-time 2.43
L2 at s-time 2.45

教师特征距离显著优于简单的 L2 距离。

可控生成(音量控制)

方法 步数 MSE↓ FAD↓ CLAP↑
$z_T$ 优化 1 6.57 4.94 0.34
基于损失的引导 16 18.5 3.04 0.41

支持无需训练的音量控制,比 DITTO 快 ~10×。

个人思考

  1. “教师即特征提取器” 是优雅的简化:音频领域缺乏像 LPIPS 这样的标准感知距离 → 直接用教师网络的特征层避免了这个问题。
  2. ν 插值超越教师说明一致性模型不仅是”加速版扩散”,它学到了轨迹的结构性信息 → 通过混合可以探索更好的生成分布。
  3. 去掉 GAN 损失反而更好——音频鉴别器的训练不稳定性会传播到主模型 → DSM 损失提供了更稳定的替代。
  4. 灵活 CFG 训练使一个模型适应多种场景:创意生成(低 CFG)vs 精确匹配文本(高 CFG)→ 部署时不需要多个模型。
  5. RTF 0.24 的实时性使文本到声音可以用在交互式应用中(如游戏音效、实时配音)。
← 返回列表