17日前

DNNベースの低遅延音声増強における時系列畳み込みネットワークを用いた最適な損失関数の探求

Yuichiro Koyama, Tyler Vuong, Stefan Uhlich, Bhiksha Raj
DNNベースの低遅延音声増強における時系列畳み込みネットワークを用いた最適な損失関数の探求
要約

近年、深層ニューラルネットワーク(DNN)は音声強調に成功裏に応用されており、DNNを用いた音声強調は魅力的な研究分野として注目を集めている。過去数年間、DNNを用いた音声強調には、短時間フーリエ変換(STFT)に基づく時周波数マスキングが広く用いられてきたが、時間領域手法として時間領域音声分離ネットワーク(TasNet)も提案されている。最も適した手法は、データセットの規模やタスクの種類に依存する。本論文では、異なる2つのデータセット上で最適な音声強調アルゴリズムを検討する。小規模なデータセットにおいて、主観的品質を向上させるために、STFTベースの手法と、問題に依存しない音声エンコーダー(PASE)特徴量を用いた損失関数を提案する。提案手法はVoice Bank + DEMANDデータセットにおいて有効であり、他の最先端手法と比較しても優れた性能を示した。また、TasNetの低遅延版を実装し、DNS Challengeに提出するとともに、オープンソースとして公開した。本モデルはDNS Challengeデータセットにおいて優れた性能を達成した。