HyperAI超神经

摘要

获取高质量训练数据，尤其是音频描述（captions），对于文本到音频模型来说是一个公开的挑战。尽管先前的方法已经利用了\textit{纯文本语言模型}来增强和改进描述，但这些方法在规模和音频与描述之间的连贯性方面存在局限性。在这项工作中，我们提出了一种使用\textit{音频语言模型}大规模合成准确且多样的音频描述的管道。我们利用该管道为AudioSet生成了一个合成描述数据集，命名为\texttt{AF-AudioSet}，并评估了在这些合成描述上预训练文本到音频模型的好处。通过在AudioCaps和MusicCaps上的系统性评估，我们发现利用我们的管道和合成描述可以显著提高音频生成质量，达到了新的\textit{最先进水平}（state-of-the-art）。

摘要

Zhifeng Kong Sang-gil Lee Deepanway Ghosal Navonil Majumder Ambuj Mehrish Rafael Valle Soujanya Poria Bryan Catanzaro

摘要

用 AI 构建 AI

HyperAI Newsletters

Zhifeng Kong Sang-gil Lee Deepanway Ghosal Navonil Majumder Ambuj Mehrish Rafael Valle Soujanya Poria Bryan Catanzaro

摘要

用 AI 构建 AI

HyperAI Newsletters

Zhifeng Kong Sang-gil Lee Deepanway Ghosal Navonil Majumder Ambuj Mehrish Rafael Valle Soujanya Poria Bryan Catanzaro

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

利用合成字幕改进文本到音频模型

Zhifeng Kong Sang-gil Lee Deepanway Ghosal Navonil Majumder Ambuj Mehrish Rafael Valle Soujanya Poria Bryan Catanzaro

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

利用合成字幕改进文本到音频模型

Zhifeng Kong Sang-gil Lee Deepanway Ghosal Navonil Majumder Ambuj Mehrish Rafael Valle Soujanya Poria Bryan Catanzaro

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

利用合成字幕改进文本到音频模型

Zhifeng Kong Sang-gil Lee Deepanway Ghosal Navonil Majumder Ambuj Mehrish Rafael Valle Soujanya Poria Bryan Catanzaro

摘要

用 AI 构建 AI

HyperAI Newsletters