
マルチチャンネル環境における音声強調は、複数のマイクロフォン信号に埋め込まれた空間情報を活用することによって実現されてきた。近年、深層ニューラルネットワーク(DNN)の進展により、この分野における性能向上が著しく進展しているが、空間情報およびチャンネル間関係を効果的に活用するマルチチャンネルネットワーク構造の研究はまだ初期段階にとどまっている。本研究では、DNNの各層においてチャンネル間関係を効果的に活用できるエンドツーエンド型時間領域音声強調ネットワークを提案する。本手法は、元々音声分離タスクに用いられる全畳み込み型時間領域音声分離ネットワーク(Conv-TasNet)を基盤としている。本研究では、Conv-TasNetをマルチチャンネル入力信号に対応可能に拡張し、チャンネル間関係を学習可能な複数の構成形態を提案する。そのために、ネットワークのエンコーダー・マスク・デコーダー構造を、空間チャンネル、特徴量、時間軸の3次元テンソルに適合するように修正した。特に、畳み込み構造に関する広範なパラメータ解析を行い、特徴量次元および空間次元にそれぞれ独立して深度方向畳み込み(depthwise convolution)と1×1畳み込み層を割り当てる手法を提案した。実験により、提案手法が得る豊富なチャンネル間情報が、異なる方向から到来する雑音信号の抑制において重要な役割を果たすことを示した。提案されたチャンネル間Conv-TasNetは、従来の最先端マルチチャンネルニューラルネットワークと比較して、パラメータ数が10分の1程度のわずかな規模ながらも優れた性能を達成した。本モデルの性能評価はCHiME-3データセットを用いて実施され、SDR(信号雑音比)、PESQ(音声品質評価指標)、STOI(音声 intelligibility 指標)において顕著な向上が確認された。