12 天前

检索增强型文本到音频生成

Yi Yuan, Haohe Liu, Xubo Liu, Qiushi Huang, Mark D. Plumbley, Wenwu Wang
检索增强型文本到音频生成
摘要

尽管文本到音频(Text-to-Audio, TTA)生成技术近年来取得了显著进展,我们发现,当前最先进的模型(如 AudioLDM)在类分布不均衡的数据集(如 AudioCaps)上进行训练时,其生成性能存在明显偏差。具体而言,这些模型在生成常见音频类别时表现优异,但在处理稀有类别时性能显著下降,从而整体上降低了生成质量。我们将这一问题称为“长尾文本到音频生成”(long-tailed text-to-audio generation)。为解决该问题,我们提出一种简单而有效的检索增强型方法,用于提升TTA模型的性能。具体而言,在给定文本提示(text prompt)后,我们首先利用对比语言-音频预训练模型(Contrastive Language-Audio Pretraining, CLAP)检索相关的文本-音频配对样本。随后,将检索到的音频-文本数据特征作为额外条件,用于指导TTA模型的学习过程。我们将该方法应用于 AudioLDM 模型,所得到的增强系统记为 Re-AudioLDM。在 AudioCaps 数据集上的实验结果表明,Re-AudioLDM 达到了当前最优的弗雷歇音频距离(Frechet Audio Distance, FAD)为 1.37,显著优于现有方法。此外,我们还验证了 Re-AudioLDM 能够生成复杂场景、稀有音频类别,甚至从未见过的音频类型的真实音频,展现出在文本到音频生成任务中的强大潜力。

检索增强型文本到音频生成 | 最新论文 | HyperAI超神经