17日前

音声強調のための深層残留密接格子ネットワーク

Mohammad Nikzad, Aaron Nicolson, Yongsheng Gao, Jun Zhou, Kuldip K. Paliwal, Fanhua Shang

要約

畳み込みニューラルネットワーク（CNN）において、残差接続（ResNet）および因果的拡張畳み込みユニットを組み合わせた構造は、音声強調（speech enhancement）に対する深層学習アプローチの主流として用いられてきた。残差接続は学習過程における勾配の流れを改善するが、浅層の出力が深層の出力と繰り返し加算されることにより、特徴量の劣化（feature diminution）が生じる可能性がある。特徴量の再利用を向上させるための一つの戦略として、ResNetと密結合畳み込みネットワーク（DenseNet）を融合する手法が提案されている。しかしながら、DenseNetは特徴量の再利用に過剰にパラメータを割り当ててしまうという問題がある。この点に着目し、本研究では、特徴量の再利用に必要なパラメータを過剰に割り当てることなく、残差接続と密接接続の両方を活用する新たなCNNである「残差-密接格子ネットワーク（Residual-Dense Lattice Network, RDL-Net）」を提案する。このネットワークの特徴は、RDLブロックのトポロジーにより、密接接続に使用される出力数を制限することで、パラメータの過剰配分を抑制することにある。広範な実験結果から、RDL-Netは残差接続および／または密接接続を用いる従来のCNNよりも優れた音声強調性能を達成できることを示した。さらに、RDL-Netはパラメータ数が著しく少なく、計算負荷も低く抑えられている。また、多くの最先端の深層学習アプローチと比較しても、RDL-Netが優れた性能を発揮することを実証した。