
摘要
本文介绍了一个新的大规模音乐数据集——MusicNet,旨在为音乐研究中的机器学习方法提供监督和评估的资源。MusicNet 包含了10位作曲家创作的数百首自由许可的古典音乐录音,这些作品涉及11种乐器,并附有乐器/音符注释,生成了超过100万个时间标签,涵盖了在不同录音室和麦克风条件下录制的34小时室内乐表演。本文定义了一项多标签分类任务,用于预测音乐录音中的音符,并提出了一套评估协议。此外,本文对几种机器学习架构在这项任务上的表现进行了基准测试:i) 基于频谱图特征的学习;ii) 使用神经网络进行端到端学习;iii) 使用卷积神经网络进行端到端学习。实验结果表明,针对音符预测训练的端到端模型能够学习频率选择性滤波器作为音频的低级表示。