17日前
条件付き拡散確率モデルによる音声強調
Yen-Ju Lu, Zhong-Qiu Wang, Shinji Watanabe, Alexander Richard, Cheng Yu, Yu Tsao

要約
音声強調は、多くのユーザー指向型音声アプリケーションにおいて重要な構成要素であるが、現行のシステムは依然として歪みが大きく、不自然な出力を生じる問題を抱えている。生成モデルは音声合成において大きな可能性を示しているものの、音声強調分野ではまだその性能が遅れをとっている。本研究では、最近の拡散確率モデル(diffusion probabilistic models)の進展を活用し、観測された雑音付き音声信号の特性を拡散および逆過程に組み込む新たな音声強調アルゴリズムを提案する。具体的には、逆過程において推定音声信号内の非ガウス型実際の雑音に適応可能な、拡張された拡散確率モデルの定式化として「条件付き拡散確率モデル」(conditional diffusion probabilistic model)を提案する。実験の結果、提案手法は代表的な生成モデルと比較して優れた性能を示すことを確認した。さらに、学習時に遭遇しなかった雑音特性を持つ他のデータセットへの汎化能力についても検証を行った。