17日前
音声強調のための深層残留密接格子ネットワーク
Mohammad Nikzad, Aaron Nicolson, Yongsheng Gao, Jun Zhou, Kuldip K. Paliwal, Fanhua Shang

要約
畳み込みニューラルネットワーク(CNN)において、残差接続(ResNet)および因果的拡張畳み込みユニットを組み合わせた構造は、音声強調(speech enhancement)に対する深層学習アプローチの主流として用いられてきた。残差接続は学習過程における勾配の流れを改善するが、浅層の出力が深層の出力と繰り返し加算されることにより、特徴量の劣化(feature diminution)が生じる可能性がある。特徴量の再利用を向上させるための一つの戦略として、ResNetと密結合畳み込みネットワーク(DenseNet)を融合する手法が提案されている。しかしながら、DenseNetは特徴量の再利用に過剰にパラメータを割り当ててしまうという問題がある。この点に着目し、本研究では、特徴量の再利用に必要なパラメータを過剰に割り当てることなく、残差接続と密接接続の両方を活用する新たなCNNである「残差-密接格子ネットワーク(Residual-Dense Lattice Network, RDL-Net)」を提案する。このネットワークの特徴は、RDLブロックのトポロジーにより、密接接続に使用される出力数を制限することで、パラメータの過剰配分を抑制することにある。広範な実験結果から、RDL-Netは残差接続および/または密接接続を用いる従来のCNNよりも優れた音声強調性能を達成できることを示した。さらに、RDL-Netはパラメータ数が著しく少なく、計算負荷も低く抑えられている。また、多くの最先端の深層学習アプローチと比較しても、RDL-Netが優れた性能を発揮することを実証した。