HyperAIHyperAI

Command Palette

Search for a command to run...

利用合成字幕改进文本到音频模型

Zhifeng Kong Sang-gil Lee Deepanway Ghosal Navonil Majumder Ambuj Mehrish Rafael Valle Soujanya Poria Bryan Catanzaro

摘要

获取高质量训练数据,尤其是音频描述(captions),对于文本到音频模型来说是一个公开的挑战。尽管先前的方法已经利用了\textit{纯文本语言模型}来增强和改进描述,但这些方法在规模和音频与描述之间的连贯性方面存在局限性。在这项工作中,我们提出了一种使用\textit{音频语言模型}大规模合成准确且多样的音频描述的管道。我们利用该管道为AudioSet生成了一个合成描述数据集,命名为\texttt{AF-AudioSet},并评估了在这些合成描述上预训练文本到音频模型的好处。通过在AudioCaps和MusicCaps上的系统性评估,我们发现利用我们的管道和合成描述可以显著提高音频生成质量,达到了新的\textit{最先进水平}(state-of-the-art)。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供