12 天前
AudioGen:文本引导的音频生成
Felix Kreuk, Gabriel Synnaeve, Adam Polyak, Uriel Singer, Alexandre Défossez, Jade Copet, Devi Parikh, Yaniv Taigman, Yossi Adi

摘要
我们致力于解决基于描述性文本标题生成音频样本的问题。在本研究中,我们提出了一种名为AudioGen的自回归生成模型,该模型能够根据文本输入生成音频样本。AudioGen基于一种学习得到的离散音频表示进行工作。文本到音频的生成任务面临多重挑战:由于音频在传播介质中的特性,区分不同“声源”具有相当难度(例如,分离多个同时说话的人);而现实录音条件(如背景噪声、混响等)进一步加剧了这一问题。此外,文本标注数据的稀缺性也构成了另一项制约因素,限制了模型的可扩展性。最后,为了建模高保真音频,需以较高的采样率对音频进行编码,从而导致序列长度极长。为缓解上述挑战,我们提出了一种音频样本混合增强技术,通过混合不同音频样本,促使模型在内部学习区分多个声源的能力。我们收集并整合了10个包含不同类型音频与文本标注的数据集,以应对文本-音频数据点稀缺的问题。为提升推理速度,我们探索了多流建模方法,使得在保持相近比特率和感知质量的前提下,能够使用更短的序列长度。此外,我们采用无分类器引导(classifier-free guidance)技术,以增强生成结果对文本描述的忠实度。与所评估的多个基线模型相比,AudioGen在客观指标和主观评价上均表现出更优性能。最后,我们还探讨了该方法在条件与非条件音频续写任务中的生成能力。相关样本展示:https://felixkreuk.github.io/audiogen