11日前

CWS-PResUNet:チャネルワイズサブバンド位相感知型ResUNetを用いた音楽ソース分離

Haohe Liu, Qiuqiang Kong, Jiafeng Liu
CWS-PResUNet:チャネルワイズサブバンド位相感知型ResUNetを用いた音楽ソース分離
要約

近年、深層学習モデルを用いた音楽源分離(Music Source Separation: MSS)は著しい進展を遂げている。多くのMSSモデルは、スペクトログラム上で有界比マスク(bounded ratio mask)を推定し、混合信号の位相を再利用することで分離を実現している。特に畳み込みニューラルネットワーク(CNN)を用いる場合、畳み込み演算において周波数帯域間の異なるパターンに関係なく、スペクトログラム内での重み共有が一般的である。本研究では、信号をサブバンドに分解し、各音源に対して無限大の複素理想比マスク(unbound complex Ideal Ratio Mask: cIRM)を推定する新しいMSSモデル、チャネル別サブバンド位相意識型ResUNet(Channel-wise Subband Phase-aware ResUNet: CWS-PResUNet)を提案する。CWS-PResUNetは、チャネル別サブバンド(Channel-wise Subband: CWS)特徴を導入することで、スペクトログラム上の不要なグローバルな重み共有を制限し、計算リソースの消費を削減する。この節約された計算コストとメモリは、より大規模なネットワーク構造の実現を可能にする。MUSDB18HQテストセットにおいて、276層のCWS-PResUNetを構築し、ボーカル分離において8.92の信号歪み比(Signal-to-Distortion Ratio: SDR)という最先端(State-of-the-Art: SoTA)のスコアを達成した。さらに、CWS-PResUNetとDemucsを組み合わせたByteMSSシステムは、2021年ISMIR音楽デミックス(MDX)チャレンジの限られた訓練データトラック(リーダーボードA)において、ボーカルスコアで2位、平均スコアで5位を獲得した。本研究のコードおよび事前学習済みモデルは、以下のURLで公開されている:https://github.com/haoheliu/2021-ISMIR-MSS-Challenge-CWS-PResUNet

CWS-PResUNet:チャネルワイズサブバンド位相感知型ResUNetを用いた音楽ソース分離 | 最新論文 | HyperAI超神経