
要約
本論文では、音楽研究における機械学習手法の監督と評価のための新しい大規模な音楽データセット「MusicNet」を紹介します。MusicNetは、10人の作曲家による数百点のフリーライセンスのクラシック音楽録音と、11種類の楽器で演奏されたものに加え、さまざまなスタジオやマイク条件での34時間分の室内楽演奏に付随する楽器/音符注釈からなる100万を超える時間ラベルを含んでいます。本論文では、音楽録音中の音符を予測する多ラベル分類タスクを定義し、評価プロトコルも提示しています。さらに、このタスクに対する複数の機械学習アーキテクチャについてベンチマークを行っています。具体的には、i) スペクトログラム特徴量からの学習;ii) ニューラルネットワークを使用したエンドツーエンド学習;iii) 畳み込みニューラルネットワークを使用したエンドツーエンド学習です。これらの実験結果は、音符予測のために訓練されたエンドツーエンドモデルが、オーディオの低レベル表現として周波数選択性フィルターを学習することを示しています。