17 天前

编码化音频语言建模为音乐信息检索学习到有用的表示

Rodrigo Castellon, Chris Donahue, Percy Liang
编码化音频语言建模为音乐信息检索学习到有用的表示
摘要

我们证明了在编码化(离散编码)音乐音频上进行预训练的语言模型,能够学习到对下游音乐信息检索(MIR)任务具有实用价值的表征。具体而言,我们研究了Jukebox(Dhariwal等,2020)所生成的表征:这是一个音乐生成系统,其语言模型在来自100万首歌曲的编码音频上进行了训练。为检验Jukebox的表征是否包含对MIR任务有用的信息,我们将其作为输入特征,用于训练多个MIR任务的浅层模型。与传统MIR模型所使用的、基于标签(tagging)预训练的表征相比,实验结果表明,在四项MIR任务——标签预测、流派分类、情感识别和调性检测——上,使用Jukebox表征作为输入特征的模型平均性能提升了30%。特别是在调性检测任务中,Jukebox的表征显著优于基于标签预训练模型的表征,这表明通过编码化音频的语言建模方式进行预训练,可能弥补了传统方法中存在的盲区。我们将其归因于:与基于标签建模相比,直接对音频进行建模能够为MIR任务提供更丰富、更具表征能力的特征。