17日前

SE-MelGAN — スペーカーに依存しない高速音声強調

Luka Chkhetiani, Levan Bejanidze
SE-MelGAN — スペーカーに依存しない高速音声強調
要約

音声合成分野における生成的対抗ネットワーク(Generative Adversarial Networks, GAN)の最近の進展[3],[2]により、メルスペクトログラムから高品質で一貫性のある波形を信頼性の高い方法で生成するためのGANの学習が可能であることが示されている。本研究では、MelGAN[3]が音声特徴の学習において示す高いロバスト性を、モデルの修正を一切行わずに音声強調(speech enhancement)およびノイズ低減領域へと転移可能であると提案する。提案手法は多話者音声データセットに対して一般化可能であり、推論時において未観測の背景ノイズに対しても堅牢に処理できる。さらに、本手法においてバッチサイズを増加させることで、音声品質の向上だけでなく、多話者データセットへの一般化が容易になり、収束速度も著しく向上することを示した。また、従来の最先端GAN手法であるSEGAN[5]に対して、2つの観点で優れた性能を発揮している:1. 音声品質、2. 計算速度。提案手法は、ハードウェア最適化を一切行わずにGPU上でリアルタイムの100倍以上、CPU上でもリアルタイムの2倍以上で実行可能であり、MelGAN[3]と同程度の実行速度を達成している。

SE-MelGAN — スペーカーに依存しない高速音声強調 | 最新論文 | HyperAI超神経