12 天前
基于潜在扩散的长时音乐生成
Zach Evans, Julian D. Parker, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons

摘要
近年来,基于音频的音乐生成模型取得了显著进展,但迄今为止仍难以生成具有连贯音乐结构的完整音乐作品。本文表明,通过在长时序上下文中训练生成模型,可实现长达4分45秒的长时序音乐生成。我们的模型采用一种在高度下采样连续潜在表示(潜在采样率为21.5Hz)上运行的扩散-Transformer架构。在音频质量与提示对齐度等指标上,该模型达到了当前最先进的水平;主观评估结果也表明,其能够生成具有连贯音乐结构的完整音乐作品。