
要約
本稿では、エンドツーエンド型の汎用音源分離に向けた効率的なニューラルネットワークを提案する。具体的には、この畳み込みネットワークの骨格構造として、多解像度特徴量の逐次ダウンサンプリングとリサンプリングを組み合わせた「SuDoRMRF(SUccessive DOwnsampling and Resampling of Multi-Resolution Features)」構造を採用し、その特徴量の集約は単純な1次元畳み込みにより実現している。このアプローチにより、浮動小数点演算回数、メモリ使用量、パラメータ数、および遅延時間といったリソース要件を制限しつつ、高品質な音源分離が可能となる。音声および環境音分離データセットを用いた実験結果から、SuDoRMRFは、計算リソースを著しく多く要する多数の最先端手法と比較して、同等あるいはそれ以上の性能を達成することが示された。