11日前
Glow-TTS:単調なアライメント探索を用いたテキストから音声への生成フロー
Jaehyeon Kim, Sungwon Kim, Jungil Kong, Sungroh Yoon

要約
近年、FastSpeech や ParaNet などのテキストからメルスペクトログラムを並列的に生成するテキスト音声合成(TTS)モデルが提案されている。これらの並列TTSモデルは、自己回帰型TTSモデルによる外部アライナー(aligner)を介さずに学習を行うことができないという課題を抱えている。本研究では、外部アライナーを一切不要とする、フローに基づく生成モデルであるGlow-TTSを提案する。本モデルは、フローの性質と動的計画法(dynamic programming)を組み合わせることで、テキストと音声の潜在表現の間に最も確率の高い単調なアライナー(monotonic alignment)を自ら探索する。我々は、硬い単調アライナーを強制することにより、長文発話にも一般化可能な堅牢なTTSが実現できることを示す。また、生成用フローを用いることで、高速かつ多様性に富み、制御可能な音声合成が可能となる。Glow-TTSは、音声合成においてTacotron 2(自己回帰型モデル)と同等の音声品質を維持しつつ、1桁以上の高速化を達成した。さらに、本モデルがマルチスピーカー設定に容易に拡張可能であることも示した。