2ヶ月前
YourMT3+: 拡張されたトランスフォーマー構造とクロスデータセットのステム拡張を用いた多楽器音楽転写
Sungkyun Chang; Emmanouil Benetos; Holger Kirchhoff; Simon Dixon

要約
多楽器音楽記譜の目的は、ポリフォニックな音楽録音を各楽器に割り当てられた楽譜に変換することである。この課題は、複数の楽器を同時に識別し、それらのピッチと正確なタイミングを記譜する必要があるためモデリングが難しく、完全にアノテーションされたデータの不足が訓練の困難さを増している。本論文では、最近の言語トークンデコーディング手法に基づく強化された多楽器音楽記譜モデル群であるYourMT3+を紹介する。我々は時間周波数領域での階層的アテンショントランスフォーマーを採用し、エキスパートの混合を統合することでエンコーダーを強化した。データ制約に対処するために、不完全なアノテーションで訓練できる新しいマルチチャネルデコーディング方法を導入し、データセットミキシング用のステム内およびステム間拡張を提案する。実験結果から直接的なボーカル記譜能力が示され、声部分分離プリプロセッサの必要性が排除されることが確認された。10つの公開データセットにおけるベンチマークテストでは、当社モデルが既存の転写モデルと同等か優れていることを示している。さらにポップミュージック録音に対するテストでは、現行モデルの限界が明らかになった。完全再現可能なコードとデータセットは\url{https://github.com/mimbres/YourMT3}で公開されており、デモも提供されている。注:URL内の「\url」はLaTeX形式でのURL表示コマンドです。通常の文章中では削除または置き換えることがあります。