
摘要
尽管深度学习在音乐领域的许多方面已经取得了显著进展,但带有标签的音乐数据集仍然特别难以创建,且成本高昂、耗时较长。在这项工作中,我们将SimCLR引入音乐领域,并贡献了一整套音频数据增强方法,形成一个用于自监督对比学习音乐表示的简单框架:CLMR。该方法适用于原始时间域音乐数据,无需标签即可学习有用的表示。我们在MagnaTagATune和Million Song数据集上对CLMR进行了下游任务的音乐分类评估,并通过消融研究测试了我们对SimCLR进行的与音乐相关的创新中哪些最为有效。基于所提出的表示训练的线性分类器在MagnaTagAT Tune数据集上的平均精度超过了监督模型,在Million Song数据集上的表现也相当接近。此外,我们展示了CLMR的表示可以使用领域外的数据集进行迁移,表明我们的方法在音乐分类中具有强大的泛化能力。最后,我们证明了所提出的方法能够在较小的带标签数据集上实现高效的数据学习:在线性评估过程中,尽管仅使用了MagnaTagATune数据集中259首带标签歌曲(占整个数据集的1%),但我们仍达到了33.1%的平均精度。为了促进可重复性和未来在音乐领域的自监督学习研究,我们公开发布了本文所有实验的预训练模型和源代码。