← 返回列表

SoundCTM: Uniting Score-based and Consistency Models for Text-to-Sound Generation

作者 Koichi Saito, Dongjun Kim, Takashi Shibuya, Chieh-Hsin Lai, Zhi Zhong, Yuhta Takida, Yuki Mitsufuji

年份 2024

会议/期刊 arXiv 2024

评分 ★ ★ ★ ★ ★

标签音频生成一致性模型扩散模型

摘要文本到声音的一致性轨迹模型：教师网络做特征提取器 + 灵活 CFG 训练 + ν 插值采样，1 步 FAD 2.08 超 ConsistencyTTA，16 步 FAD 1.38 超扩散教师

论文原文代码仓库

核心思想

文本到声音生成需要快速且高质量。现有方法要么需要很多步（扩散模型，200 步），要么一步生成质量不够（一致性模型）。

SoundCTM 提出音频领域的一致性轨迹模型：

用教师网络本身做特征提取器 → 不需要外部预训练特征网络
训练时随机采样 CFG 强度 → 推理时灵活调节
用 ν 插值在条件和无条件生成之间混合 → 可以超越教师质量

结果：1 步 FAD 2.08，16 步 FAD 1.38（超越 200 步扩散教师）。

背景知识

一致性轨迹模型（CTM）

CTM 学习 ODE 轨迹上任意两点之间的映射：

\[G_\theta(z_t, c, \omega, t, s) = \frac{s}{t} z_t + \left(1 - \frac{s}{t}\right) g_\theta(z_t, c, \omega, t, s)\]

当 $s = 0$：直接映射到干净样本（1 步生成）
当 $s > 0$：映射到中间点（可以多步细化）

CTM 应用于音频的挑战

挑战	图像领域方案	音频领域问题
特征距离	LPIPS（ImageNet 预训练）	无成熟的音频感知特征网络
对抗损失	GAN 鉴别器	音频鉴别器不稳定
外部特征器	VGG、CLIP	占用大量内存

方法详解

1. 教师网络做特征提取器

核心思想：不需要外部预训练网络，直接用扩散教师网络的中间层特征做距离度量。

\[d_{\text{teacher}} = \text{距离}(f_m^{\text{teacher}}(z_s), f_m^{\text{teacher}}(\hat{z}_s))\]

$f_m^{\text{teacher}}$：教师网络第 $m$ 层的通道归一化输出特征
优势：不增加额外内存、不需要下载预训练权重

2. 灵活 CFG 训练

训练时将 CFG 强度 $\omega$ 从 $[\omega_{\min}, \omega_{\max}]$ 均匀采样：

\[\omega \sim U(\omega_{\min}, \omega_{\max})\]

模型同时学习在不同 CFG 强度下的轨迹映射 → 推理时可以自由调节文本条件的强度。

3. ν 插值采样

在文本条件和无条件的学生模型之间插值：

\[z_{s|t} = \nu \cdot G_\theta(z_t, c_{\text{text}}, \omega, t, s) + (1 - \nu) \cdot G_\theta(z_t, \varnothing, \omega, t, s)\]

$\nu = 1$：纯条件生成
$\nu < 1$：混合无条件信号 → 增加多样性
适当的 $\nu$ 可以超越教师模型

4. 训练目标

\[\mathcal{L}(\theta) = \mathcal{L}_{\text{CTM}}^{\text{Sound}} + \lambda_{\text{DSM}} \cdot \mathcal{L}_{\text{DSM}}^{\text{Sound}}\]

$\mathcal{L}_{\text{CTM}}^{\text{Sound}}$：一致性轨迹匹配（教师特征距离）
$\mathcal{L}_{\text{DSM}}^{\text{Sound}}$：去噪分数匹配（保持扩散能力）
自适应加权：通过梯度范数比率自动平衡

5. 与标准 CTM 的区别

设计	标准 CTM	SoundCTM
特征提取器	LPIPS（外部网络）	教师网络中间层
对抗损失	GAN 鉴别器	无（DSM 替代）
CFG	固定强度	训练时随机采样
采样策略	标准	ν 插值

实验结果

数据集与评估

数据集：AudioCaps（47,289 训练对，957 测试对，16 kHz）
教师模型：TANGO（EDM 基础，40 步扩散）
评估指标：FAD（音频质量↓）、IS（多样性↑）、CLAP（文本对齐↑）

主要结果

模型	步数	FAD_vgg↓	IS_passt↑	CLAP↑
AudioLDM2-L	200	1.86	—	—
TANGO（教师）	200	1.64	6.35	0.44
ConsistencyTTA	1	2.58	6.85	0.41
SoundCTM	1	2.08	7.13	0.43
SoundCTM	16	1.38	8.24	0.46

1 步：比 ConsistencyTTA 好 0.50 FAD
16 步：超越 200 步扩散教师（1.38 vs 1.64）
实时生成：RTF 0.24（单 GPU 上 2.43 秒生成 10 秒音频）

特征提取器消融

特征距离	1-step FAD↓
$d_{\text{teacher}}$	2.18
L2 at 0-time	2.43
L2 at s-time	2.45

教师特征距离显著优于简单的 L2 距离。

可控生成（音量控制）

方法	步数	MSE↓	FAD↓	CLAP↑
$z_T$ 优化	1	6.57	4.94	0.34
基于损失的引导	16	18.5	3.04	0.41

支持无需训练的音量控制，比 DITTO 快 ~10×。

个人思考

“教师即特征提取器” 是优雅的简化：音频领域缺乏像 LPIPS 这样的标准感知距离 → 直接用教师网络的特征层避免了这个问题。
ν 插值超越教师说明一致性模型不仅是”加速版扩散”，它学到了轨迹的结构性信息 → 通过混合可以探索更好的生成分布。
去掉 GAN 损失反而更好——音频鉴别器的训练不稳定性会传播到主模型 → DSM 损失提供了更稳定的替代。
灵活 CFG 训练使一个模型适应多种场景：创意生成（低 CFG）vs 精确匹配文本（高 CFG）→ 部署时不需要多个模型。
RTF 0.24 的实时性使文本到声音可以用在交互式应用中（如游戏音效、实时配音）。

← 返回列表