
要約
自動音楽転記 (AMT) は、生のオーディオから音楽のノートを推定するという課題であり、音楽理解の中心的な部分を占めています。自動音声認識 (ASR) が一般的に単一の話者の言葉に焦点を当てるのに対し、AMT は多くの場合、複数の楽器を同時に転記する必要があり、その際微細なピッチとタイミング情報を保つ必要があります。さらに、多くの AMT データセットは「低リソース」であり、専門家である音楽家さえも音楽転記が困難で時間のかかる作業であるためです。従来の研究では、各タスク固有の楽器に合わせた特定のアーキテクチャに焦点を当ててきました。本研究では、低リソース自然言語処理 (NLP) のシーケンス・ツー・シーケンス転移学習における有望な結果に触発され、汎用的なトランスフォーマー・モデルが多タスク AMT を行い、複数の転記データセットにおいて任意の楽器組み合わせを共同で転記できることを示しています。この統合された学習フレームワークが一連のデータセットで高品質な転記結果を達成し、低リソース楽器(ギターなど)での性能が大幅に向上するとともに、豊富なデータを持つ楽器(ピアノなど)でも高い性能を維持することを示しています。最後に、AMT の範囲を拡大することで、より一貫性のある評価指標とデータセット間の一貫性が必要であることが明らかになり、この新しい多タスク AMT 方向に対する強力なベースラインを提供します。