17 天前

Audiobox:基于自然语言提示的统一音频生成

Apoorv Vyas, Bowen Shi, Matthew Le, Andros Tjandra, Yi-Chiao Wu, Baishan Guo, Jiemin Zhang, Xinyue Zhang, Robert Adkins, William Ngan, Jeff Wang, Ivan Cruz, Bapi Akula, Akinniyi Akinyemi, Brian Ellis, Rashel Moritz, Yael Yungster, Alice Rakotoarison, Liang Tan, Chris Summers, Carleigh Wood, Joshua Lane, Mary Williamson, Wei-Ning Hsu
Audiobox:基于自然语言提示的统一音频生成
摘要

音频是人类生活中不可或缺的一部分,但其创作过程通常需要专业知识且耗时较长。在过去一年中,研究界在提升大规模单模态音频生成模型(如语音、声音或音乐)性能方面取得了显著进展,主要得益于更强大的生成模型架构以及更大规模数据的使用。然而,现有模型在可控性方面仍存在诸多局限:语音生成模型无法根据文本描述合成新颖的语音风格,且在领域覆盖上受限,难以有效处理如户外环境等复杂场景;声音生成模型仅能基于粗粒度描述(如“一个人在说话”)进行控制,生成结果往往仅为含糊不清的人声。本文提出 Audiobox,一个基于流匹配(flow-matching)框架的统一音频生成模型,能够生成多种音频模态。我们设计了基于描述和基于样例的提示机制(prompting),以增强生成过程的可控性,并统一语音与声音生成的范式。在语音生成过程中,模型可独立控制文本内容、发音人声线及其他音频风格。为在标签数据有限的情况下提升模型泛化能力,我们引入自监督填充(self-supervised infilling)目标,在大量未标注音频数据上进行预训练。Audiobox 在语音与声音生成任务上均创下新基准:在零样本语音合成(zero-shot TTS)任务中,LibriSpeech 数据集上的相似度达到 0.745;在文本到声音生成任务(AudioCaps)中,FAD 指标达到 0.77。该模型还首次实现了对新颖声线与声学风格的可控生成。此外,我们集成了 Bespoke Solvers,相较于默认的常微分方程(ODE)求解器,生成速度提升超过 25 倍,同时在多个任务上保持了相同的生成质量。相关演示系统已上线,欢迎访问:https://audiobox.metademolab.com/