
要約
深層学習を主導とする音声源分離分野の最近の進展により、多くのニューラルネットワークモデルがこの基礎的な推定問題に対して堅牢な解決策を提供できるようになっている。本研究では、実世界におけるニューラルネットワークの応用を妨げる複数の計算上の課題に注目しつつ、汎用的な音声源分離を実現する効率的なニューラルネットワークアーキテクチャ群を提示する。この畳み込みネットワークの基盤構造は、マルチスケール特徴量の逐次ダウンサンプリングとリサンプリング(SuDoRM-RF)およびそれらの集約であり、集約処理は単純な一次元畳み込みによって実現される。このメカニズムにより、本モデルは、音源数が変動する多様な状況下で、限られた計算リソース(例えば浮動小数点演算数、メモリ使用量、パラメータ数、レイテンシなど)の条件下でも高忠実度の信号分離を達成できる。実験結果から、SuDoRM-RFモデルは、著しく高い計算リソースを要するいくつかの最先端ベンチマークと同等あるいはそれ以上の性能を発揮することが明らかになった。また、因果的(causal)なSuDoRM-RFの変種は、ラップトップデバイス上でリアルタイムの10dB程度のスケール不変信号歪み比改善(SI-SDRi)を実現しつつ、リアルタイム比で最大20倍の高速性を維持している。