2 个月前

利用合成字幕改进文本到音频模型

Kong, Zhifeng ; Lee, Sang-gil ; Ghosal, Deepanway ; Majumder, Navonil ; Mehrish, Ambuj ; Valle, Rafael ; Poria, Soujanya ; Catanzaro, Bryan
利用合成字幕改进文本到音频模型
摘要

获取高质量训练数据,尤其是音频描述(captions),对于文本到音频模型来说是一个公开的挑战。尽管先前的方法已经利用了\textit{纯文本语言模型}来增强和改进描述,但这些方法在规模和音频与描述之间的连贯性方面存在局限性。在这项工作中,我们提出了一种使用\textit{音频语言模型}大规模合成准确且多样的音频描述的管道。我们利用该管道为AudioSet生成了一个合成描述数据集,命名为\texttt{AF-AudioSet},并评估了在这些合成描述上预训练文本到音频模型的好处。通过在AudioCaps和MusicCaps上的系统性评估,我们发现利用我们的管道和合成描述可以显著提高音频生成质量,达到了新的\textit{最先进水平}(state-of-the-art)。

利用合成字幕改进文本到音频模型 | 最新论文 | HyperAI超神经