
要約
音声源分離は、音声信号の長期依存性をモデル化するため、大きな入力領域を必要とする。従来の畳み込みニューラルネットワーク(CNN)ベースの手法は、特徴マップの逐次的なダウンサンプリングおよびアップサンプリング、あるいは拡張畳み込み(dilated convolution)を用いて、大きな入力領域のモデル化を実現してきた。本論文では、受容 field の急速な拡大と、同一畳み込み層内で複数解像度のデータを同時にモデル化することの重要性を主張し、新たなCNNアーキテクチャとして「密結合型拡張DenseNet(Densely Connected Dilated DenseNet, D3Net)」を提案する。D3Netは、同一層内で異なる拡張係数(dilation factors)を有する新しいマルチ拡張畳み込み(multi-dilated convolution)を導入し、複数の解像度を同時にモデル化可能とする。このマルチ拡張畳み込みをDenseNetアーキテクチャと組み合わせることで、DenseNetに拡張畳み込みを単純に組み込む際に生じるアリアシング問題を回避できる。MUSDB18データセットにおける実験結果から、D3Netは平均信号歪み比(SDR)6.01 dBという最先端の性能を達成した。