2ヶ月前

階層的時系列畳み込みネットワークとクロスドメインエンコーダを用いた音楽ソース分離

{Hao Huang, Liang He, Wenzhong Yang, Yadong Chen, Ying Hu}

要約

近年、音声源分離に向けた時系列ベースの手法（すなわち、原始波形を直接モデル化する手法）が大きな可能性を示しつつある。本論文では、時系列領域特徴と複素スペクトログラム領域特徴をクロスドメインエンコーダ（CDE）により統合し、複数楽器音源の分離に向けた階層的時系列畳み込みネットワーク（HTCN）を採用するモデルを提案する。CDEは、時系列領域と複素スペクトログラム領域の特徴間の相互作用情報を効果的に符号化できるように設計されている。一方、HTCNは長期間の時系列依存関係を効率的に学習可能である。さらに、HTCNに適用可能な特徴補正ユニット（FCU）を新たに設計し、学習段階ではマルチステージ学習戦略を導入した。消去実験により、モデル内の各設計要素の有効性が確認された。MUSDB18データセットを用いた実験結果から、提案手法であるCDE-HTCNモデルが最先端の手法を上回ることを示した。特に、最先端手法であるDEMUCSと比較して、平均SDRスコアにおいて0.61 dBの向上を達成した。特に、ベーシック音源におけるSDRスコアの向上は0.91 dBと顕著な改善を示しており、本手法の優位性が裏付けられた。