
要約
最近の深層学習の進展により、コンテンツベースの自動音楽タグ付けシステムの開発が加速しました。音楽情報検索(MIR)研究者たちは、主に畳み込みニューラルネットワーク(CNNs)を基盤とする様々なアーキテクチャ設計を提案し、この多ラベル二値分類タスクにおいて最先端の結果を達成しています。しかし、研究者が異なるデータセット分割や評価用ソフトウェアバージョンを使用するなど、実験設定に違いがあるため、提案されたアーキテクチャを直接比較することは困難です。本論文では、さらなる研究を促進するために、3つのデータセット(MagnaTagATune、Million Song Dataset、MTG-Jamendo)上で異なる音楽タグ付けモデルの一貫した評価を行い、一般的な評価指標(ROC-AUC および PR-AUC)を使用して参考結果を提供します。さらに、時間伸縮、ピッチシフト、ダイナミックレンジ圧縮、ホワイトノイズの追加などの入力変動に対する汎化能力についても調査するために、すべてのモデルに対して変動のある入力での評価を行います。再現性のために、事前学習済みモデルと共に PyTorch 実装を提供します。