13 天前
Make-An-Audio:基于提示增强扩散模型的文本到音频生成
Rongjie Huang, Jiawei Huang, Dongchao Yang, Yi Ren, Luping Liu, Mingze Li, Zhenhui Ye, Jinglin Liu, Xiang Yin, Zhou Zhao

摘要
大规模多模态生成建模在文本到图像、文本到视频生成领域取得了里程碑式进展。然而,其在音频生成领域的应用仍相对滞后,主要原因有两个:一是缺乏大规模、高质量的文本-音频配对数据集;二是建模长时连续音频数据具有较高复杂性。在本项研究中,我们提出了一种名为 Make-An-Audio 的提示增强扩散模型,通过以下两个关键创新有效弥补了上述技术缺口:(1)提出一种“伪提示增强”机制,采用“蒸馏-重编程”(distill-then-reprogram)策略,利用无语言音频实现数量级提升的概念组合,显著缓解数据稀缺问题;(2)引入频谱图自编码器(spectrogram autoencoder)来预测自监督音频表征,而非直接建模波形数据。结合强大的对比语言-音频预训练(CLAP)表征,Make-An-Audio 在客观与主观评估基准上均取得了当前最优性能。此外,我们首次实现了 X-to-Audio 的可控性与泛化能力,践行“不落下任何模态”(No Modality Left Behind)的理念,成功实现仅凭用户定义的任意模态输入即可生成高分辨率、高保真度音频。音频样例可访问 https://Text-to-Audio.github.io 查看。