2 个月前
ETTA:阐明文本到音频模型的设计空间
Lee, Sang-gil ; Kong, Zhifeng ; Goel, Arushi ; Kim, Sungwon ; Valle, Rafael ; Catanzaro, Bryan

摘要
近年来,文本到音频(Text-To-Audio, TTA)合成技术取得了显著进展,使得用户可以通过自然语言提示生成合成音频,从而丰富其创意工作流程。尽管如此,数据、模型架构、训练目标函数和采样策略对目标基准的影响尚未得到充分理解。为了提供对TTA模型设计空间的全面理解,我们开展了一项大规模的实证实验,重点关注扩散模型和流匹配模型。我们的贡献包括:1)AF-Synthetic,一个高质量的合成字幕大型数据集,该数据集由一个音频理解模型获得;2)对不同架构、训练和推理设计选择的系统性比较;3)对采样方法及其在生成质量和推理速度方面的帕累托曲线进行分析。我们利用从这一广泛分析中获得的知识,提出了我们的最佳模型——阐明文本到音频(Elucidated Text-To-Audio, ETTA)。在AudioCaps和MusicCaps基准测试中,ETTA在使用公开可用数据训练的情况下优于基线模型,并且在性能上与使用专有数据训练的模型相当。最后,我们展示了ETTA在根据复杂且富有想象力的字幕生成创意音频方面的能力提升——这是一项比当前基准测试更具挑战性的任务。