2 个月前

简单且可控的音乐生成

Copet, Jade ; Kreuk, Felix ; Gat, Itai ; Remez, Tal ; Kant, David ; Synnaeve, Gabriel ; Adi, Yossi ; Défossez, Alexandre
简单且可控的音乐生成
摘要

我们致力于解决条件音乐生成的任务。为此,我们引入了MusicGen,这是一种单一语言模型(LM),能够在多个压缩离散音乐表示流(即,标记)上运行。与以往的研究不同,MusicGen由一个单阶段的变压器语言模型和高效的标记交错模式组成,从而消除了需要级联多个模型的需求,例如分层或上采样。通过这种方法,我们展示了MusicGen在基于文本描述或旋律特征的条件下,能够生成高质量的单声道和立体声音频样本,从而对生成的输出实现更好的控制。我们进行了广泛的实证评估,包括自动评估和人工研究,结果表明所提出的方法在标准的文本到音乐基准测试中优于已评估的基线方法。通过消融研究,我们阐明了构成MusicGen的各个组件的重要性。MusicGen的音频样本、代码和模型可在https://github.com/facebookresearch/audiocraft 获取。

简单且可控的音乐生成 | 最新论文 | HyperAI超神经