2 个月前

快速时序条件潜在音频扩散

Evans, Zach ; Carr, CJ ; Taylor, Josiah ; Hawley, Scott H. ; Pons, Jordi
快速时序条件潜在音频扩散
摘要

从文本提示生成长格式44.1kHz立体声音频在计算上具有挑战性。此外,大多数先前的研究并未解决音乐和音效在其持续时间上的自然变化问题。我们的研究重点在于利用生成模型高效地从文本提示生成长格式、可变长度的44.1kHz立体声音乐和音效。Stable Audio基于潜在扩散(latent diffusion)技术,其潜在变量由一个全卷积变分自编码器定义。该模型通过文本提示和时间嵌入进行条件控制,从而实现对生成音乐和音效的内容及长度的精细调控。Stable Audio能够在A100 GPU上于8秒内渲染出长达95秒的44.1kHz立体声音信号。尽管其计算效率高且推理速度快,它在两个公开的文本到音乐和音频基准测试中仍表现优异,并且与最先进的模型不同,它可以生成具有结构和立体声效果的音乐。