2 个月前
高效的神经音乐生成
Lam, Max W. Y. ; Tian, Qiao ; Li, Tang ; Yin, Zongyu ; Feng, Siyuan ; Tu, Ming ; Ji, Yuliang ; Xia, Rui ; Ma, Mingbo ; Song, Xuchen ; Chen, Jitong ; Wang, Yuping ; Wang, Yuxuan

摘要
近期在音乐生成领域的进展得益于最先进的MusicLM模型,该模型由三个层次的LM(语言模型)组成,分别用于语义建模、粗略声学建模和精细声学建模。然而,使用MusicLM进行采样时需要依次通过这些语言模型以获得细粒度的声学标记,这使得计算成本高昂且难以实现实时生成。如何高效地生成与MusicLM质量相当的音乐仍然是一个重大挑战。本文中,我们介绍了MeLoDy(M代表音乐;L代表语言模型;D代表扩散),这是一种基于语言模型引导的扩散模型,能够在生成具有最先进质量的音乐音频的同时,分别减少95.7%或99.6%的MusicLM前向传递次数,用于10秒或30秒音乐的采样。MeLoDy继承了MusicLM中的最高层语言模型用于语义建模,并应用了一种新颖的双路径扩散(DPD)模型和音频VAE-GAN来高效地将条件语义标记解码为波形。DPD通过在每个去噪步骤中利用交叉注意力机制有效地将语义信息融入潜在变量段,从而同时对粗略声学和精细声学进行建模。实验结果表明,MeLoDy不仅在采样速度和无限延续生成方面具有实际优势,而且在音乐性、音质和文本相关性方面也达到了最先进水平。我们的样本可在以下网址获取:https://Efficient-MeLoDy.github.io/。