
深層学習は音楽の多くの分野で大きな進歩をもたらしましたが、ラベル付き音楽データセットの作成は特に困難で、費用がかかり、時間がかかる問題となっています。本研究では、SimCLRを音楽分野に導入し、大規模なオーディオデータ拡張チェーンを提供することで、音楽表現の自己監督型対照学習の単純なフレームワーク(CLMR)を提案します。このアプローチは生の時間領域の音楽データに対して機能し、有用な表現を学習するためにラベルが不要です。私たちはMagnaTagATuneおよびMillion Songデータセットにおける音楽分類という下流タスクにおいてCLMRを評価し、SimCLRに対する私たちの音楽関連革新の中で最も効果的なものを検証するための削減実験(ablation study)を行いました。提案された表現に基づいて訓練された線形分類器は、MagnaTagATuneデータセットにおいて監督モデルよりも高い平均精度を達成し、Million Songデータセットでも同等の性能を示しました。さらに、CLMRの表現がドメイン外データセットでも転移可能であることを示しており、これは当手法が音楽分類において強い汎化能力を持つことを示唆しています。最後に、提案手法が少量ラベル付きデータでの効率的な学習を可能にすることを示します:線形評価時にMagnaTagATuneデータセットでわずか259曲(全体の1%)を使用したにもかかわらず、33.1%の平均精度を達成しました。再現性と将来の研究促進のために、本論文で使用した事前学習済みモデルとすべての実験のソースコードを公開します。注:「ablation study」は「削減実験」と訳しましたが、「除去実験」や「部分除去実験」という訳も使用されます。状況に応じて適切な訳語を選択してください。