11日前

バンドスプリットRNNを用いた音楽ソース分離

Yi Luo, Jianwei Yu
バンドスプリットRNNを用いた音楽ソース分離
要約

近年、ニューラルネットワークアーキテクチャおよび学習パイプラインの進展により、音楽音源分離(MSS)モデルの性能は著しく向上している。しかし、最近のMSSモデル設計は、他の音声処理タスクや他分野の研究に由来するものが多く、音楽信号固有の特徴やパターンが十分に解明されていないのが現状である。本稿では、混合音のスペクトログラムを周波数帯域に明示的に分割し、帯域レベルとシーケンスレベルのモデルを交互に適用する周波数ドメイン型モデルである「バンド分割RNN(BSRNN)」を提案する。帯域幅の選定は、対象音源の特性に関する事前知識や専門知識に基づいて行われることで、特定の楽器に対する分離性能を最適化することが可能となる。さらに、ラベルなしデータを効果的に活用するため、半教師付きモデル微調整パイプラインも提案しており、これによりモデル性能のさらなる向上が実現される。実験結果から、MUSDB18-HQデータセットのみで訓練されたBSRNNは、Music Demixing(MDX)Challenge 2021の複数のトップクラスモデルを大きく上回り、特に半教師付き微調整ステージによって4つの楽器トラックすべてで性能が向上することが確認された。

バンドスプリットRNNを用いた音楽ソース分離 | 最新論文 | HyperAI超神経