17日前
SCP-GAN:音声強調タスクにおけるトレーニングの一貫性を保つメトリックGANのための自己修正型ディスクリミネータ最適化
Vasily Zadorozhnyy, Qiang Ye, Kazuhito Koishida

要約
近年、生成 adversarial ネットワーク(GAN)は、音声強調(SE)タスクにおいて顕著な性能向上を達成している。しかし、GANの訓練は困難である。本研究では、多数のGANベースのSEモデルに適用可能な、GAN訓練手法の複数の改善策を提案する。まず、フーリエ変換および逆フーリエ変換に起因する時間領域および時周波数領域における一貫性の欠如を補正するため、一貫性損失関数の導入を提案する。また、SEタスクにおけるGANディスクリミネーターの訓練において「有害な」訓練方向を回避するため、自己修正型最適化手法を提示する。提案手法は、複数の最先端GANベースSEモデルを用いて検証された結果、一貫した性能向上が得られ、特にVoice Bank+DEMANDデータセットにおいて新たな最先端性能を達成した。