17日前

チャネル注意力を備えたDense U-Netを用いたマルチチャネル音声強調

Bahareh Tolooshams, Ritwik Giri, Andrew H. Song, Umut Isik, Arvindh Krishnaswamy

要約

近年、教師ありディープラーニングは音声強調分野において大きな注目を集めている。最先端のディープラーニング手法は、混合音声信号を時間周波数領域で処理し、その上で比マスクまたはバイナリマスクを学習・適用することで、クリーン音声を生成する。単一チャネル環境では優れた性能を発揮するが、マルチチャネル環境では性能が劣化する傾向がある。その主な理由は、これらの手法の多くがa) 利用可能な空間情報を十分に活用できていないこと、およびb) ディープアーキテクチャをブラックボックスとして扱っているため、マルチチャネル音声処理に適していない可能性があることにある。本論文では、これらの課題に対処するため、a) スペクトログラムの振幅に対するマスクではなく、複素比マスクを用いることで、位相情報も有効に活用し、さらにb) ディープアーキテクチャ内にチャネルアテンション機構を導入し、ビームフォーミングの挙動を模倣するアプローチを提案する。具体的には、チャネルアテンションユニットをネットワークの各層における特徴マップに再帰的に適用する「チャネルアテンション付き Dense U-Net」を提案し、非線形ビームフォーミングを実現可能なネットワーク構造を構築した。提案手法は、CHiME-3データセットを用いた実験において、最先端手法と比較して優れた性能を示した。