12 天前
驯服数据与Transformer用于音频生成
Moayed Haji-Ali, Willi Menapace, Aliaksandr Siarohin, Guha Balakrishnan, Vicente Ordonez

摘要
环境音生成技术的可扩展性受到数据稀缺、文本描述质量不足以及模型架构扩展性有限的制约。本文通过推进数据与模型的双重扩展,有效应对上述挑战。首先,我们提出了一种高效且可扩展的数据集构建流程,专为环境音频生成任务设计,构建了目前规模最大的环境音-文本数据集 AutoReCap-XL,包含超过4700万段音频片段。为提升文本标注质量,我们提出了 AutoCap——一种高质量的自动音频描述生成模型。该模型采用Q-Former模块并融合音频元数据,显著提升了生成描述的准确性,其CIDEr得分达到83.2,较此前的描述模型提升3.2%。最后,我们提出了一种可扩展的基于Transformer的音频生成架构 GenAu,并将其参数量扩展至12.5亿(1.25B)。实验表明,该模型在数据规模扩展(使用合成描述)和模型规模扩展方面均展现出显著优势。与在相似规模下训练的基线音频生成模型相比,GenAu在FAD得分上提升4.7%,IS(Inception Score)提升11.1%,CLAP得分提升13.5%。本文所涉及的代码、模型检查点及数据集均已公开发布。