2 个月前
Mustango:可控的文本到音乐生成
Melechovsky, Jan ; Guo, Zixun ; Ghosal, Deepanway ; Majumder, Navonil ; Herremans, Dorien ; Poria, Soujanya

摘要
由于近期在扩散模型方面的进展,文本到音乐模型的质量达到了新的高度。然而,对各种音乐方面可控性的探索却相对较少。本文提出了一种基于扩散模型的音乐领域知识启发的文本到音乐系统——Mustango。Mustango不仅通过一般的文本描述来控制生成的音乐,还支持包含和弦、节拍、速度和调性的具体指令在内的丰富文本描述。Mustango的核心模块是MuNet,这是一种音乐领域知识引导的UNet模块,能够在逆向扩散过程中将从文本提示中预测出的特定音乐条件以及一般文本嵌入引导至生成的音乐中。为了解决带有文本描述的开放音乐数据集有限的问题,我们提出了一种新颖的数据增强方法,该方法包括改变音乐音频的和声、节奏和动态方面,并利用最先进的音乐信息检索技术提取音乐特征,然后以文本形式附加到现有的描述中。我们发布了由此产生的MusicBench数据集,其中包含超过52,000个实例,并且在标题文本中包含了基于音乐理论的描述。通过广泛的实验,我们证明了Mustango生成的音乐质量处于行业领先水平,并且通过特定于音乐的文本提示实现的可控性显著优于其他模型(如MusicGen和AudioLDM2)。