12 天前

驯服数据与Transformer用于音频生成

Moayed Haji-Ali, Willi Menapace, Aliaksandr Siarohin, Guha Balakrishnan, Vicente Ordonez

摘要

环境音生成技术的可扩展性受到数据稀缺、文本描述质量不足以及模型架构扩展性有限的制约。本文通过推进数据与模型的双重扩展，有效应对上述挑战。首先，我们提出了一种高效且可扩展的数据集构建流程，专为环境音频生成任务设计，构建了目前规模最大的环境音-文本数据集 AutoReCap-XL，包含超过4700万段音频片段。为提升文本标注质量，我们提出了 AutoCap——一种高质量的自动音频描述生成模型。该模型采用Q-Former模块并融合音频元数据，显著提升了生成描述的准确性，其CIDEr得分达到83.2，较此前的描述模型提升3.2%。最后，我们提出了一种可扩展的基于Transformer的音频生成架构 GenAu，并将其参数量扩展至12.5亿（1.25B）。实验表明，该模型在数据规模扩展（使用合成描述）和模型规模扩展方面均展现出显著优势。与在相似规模下训练的基线音频生成模型相比，GenAu在FAD得分上提升4.7%，IS（Inception Score）提升11.1%，CLAP得分提升13.5%。本文所涉及的代码、模型检查点及数据集均已公开发布。