17日前
フェーズに応じたシングルステージ音声ノイズ除去およびリバーバーメーション:U-Netを用いた手法
Hyeong-Seok Choi, Hoon Heo, Jie Hwan Lee, Kyogu Lee

要約
本研究では、単一段階フレームワークを用いたノイズ除去および残響除去問題に取り組む。ノイズ除去と残響除去はそれぞれ難易度の高い独立したタスクと見なされることが多く、通常は各タスクに別々のモジュールを設けるが、本研究では、これらの二つの問題を一つの深層ネットワークで同時に解決可能であることを示す。そのために、複素数領域における混合信号、音源信号、および残余成分の三つの信号成分間の三角不等式を考慮しつつ、推定された振幅値を再利用してクリーンな位相を推定する、新たなマスク法「位相感知型ベータシグモイドマスク(PHM)」を提案する。直接音源と残響音源のそれぞれに対し、2つのPHMを用いることで、推論時に強化音声における残響の割合を柔軟に制御することが可能となる。さらに、音声強調性能の向上を図るため、新しい時間領域損失関数を提案し、複素数領域におけるMSE損失と比較して有意な性能向上を示す。最後に、リアルタイム推論の実現を目指し、U-Netに対する最適化戦略を提示する。これにより、従来のナイーブな実装と比較して、計算負荷を最大88.9%まで大幅に削減することが可能となる。