12 天前
AudioLDM:基于潜在扩散模型的文本到音频生成
Haohe Liu, Zehua Chen, Yi Yuan, Xinhao Mei, Xubo Liu, Danilo Mandic, Wenwu Wang, Mark D. Plumbley

摘要
文本到音频(Text-to-Audio, TTA)系统近年来因其能够根据文本描述生成通用音频而受到广泛关注。然而,以往的TTA研究在生成质量方面受限,且计算成本较高。在本研究中,我们提出AudioLDM,一种基于潜在空间的TTA系统,该系统通过对比语言-音频预训练(Contrastive Language-Audio Pretraining, CLAP)的潜在表示来学习连续的音频表征。预训练的CLAP模型使我们能够在训练过程中引入音频嵌入,并在采样阶段以文本嵌入作为条件来指导生成。AudioLDM通过学习音频信号及其组合的潜在表示,无需显式建模跨模态关系,从而在生成质量与计算效率方面均展现出显著优势。在仅使用单张GPU训练AudioCaps数据集的情况下,AudioLDM在客观与主观评估指标(如Fréchet音频距离)上均达到了当前最优的TTA性能。此外,AudioLDM是首个能够以零样本(zero-shot)方式实现多种文本引导音频操作(如风格迁移)的TTA系统。我们的代码实现与演示视频已公开,详见:https://audioldm.github.io。