FastSpeech 2:高速かつ高品質なエンドツーエンド型テキストtoスピーチ

非自己回帰型音声合成(Text-to-Speech: TTS)モデルであるFastSpeechは、従来の自己回帰型モデルと同等の音声品質を維持しつつ、大幅に高速な音声合成が可能である。FastSpeechの学習は、発話期間予測(入力としてより豊富な情報を提供するため)および知識蒸留(出力のデータ分布を簡素化するため)の目的で、自己回帰型の教師モデル(teacher model)に依存している。これにより、TTSにおける「1対多マッピング問題」(同一のテキストに対し複数の音声変異が存在する現象)の緩和が図られている。しかし、FastSpeechには以下の課題が存在する:1)教師-生徒間の知識蒸留パイプラインが複雑かつ時間のかかるものであり、2)教師モデルから抽出された発話期間の精度が十分ではなく、教師モデルから蒸留されたターゲットメルスペクトログラムはデータ簡素化の影響により情報損失を受けるため、音声品質に制約が生じる。本論文では、これらの課題を解決し、TTSにおける1対多マッピング問題をより効果的に扱うFastSpeech 2を提案する。本手法の特徴は以下の2点である:1)教師モデルからの簡略化された出力を用いるのではなく、真のターゲット(ground-truth target)を直接学習に用いることで、学習の効率と精度を向上させること、2)音声の変動情報をより豊かに取り入れ、条件入力として用いること(例えば、ピッチ、エネルギー、より正確な発話期間など)。具体的には、音声波形から発話期間、ピッチ、エネルギーを抽出し、学習時にはこれを条件入力として直接使用する。推論時には、モデルが予測した値を用いる。さらに、本研究では、テキストから並列に音声波形を直接生成するという初の試みとして、FastSpeech 2sを設計した。これは完全なエンドツーエンド推論の利点を享受できる。実験結果から、1)FastSpeech 2はFastSpeechに比べて学習速度が3倍向上し、FastSpeech 2sはさらに高速な推論速度を達成していること、2)FastSpeech 2および2sは音声品質においてFastSpeechを上回っており、FastSpeech 2は自己回帰型モデルをも凌ぐ性能を示していることが明らかになった。音声サンプルは以下のURLにて公開されている:https://speechresearch.github.io/fastspeech2/。