11日前
Flowtron:テキストから音声合成への自己回帰型フローに基づく生成ネットワーク
Rafael Valle, Kevin Shih, Ryan Prenger, Bryan Catanzaro

要約
本論文では、音声のバリエーションおよびスタイル転送を制御可能な、自己回帰的フローに基づく音声合成用生成ネットワーク「Flowtron」を提案する。FlowtronはIAF(Inversed Autoregressive Flow)の知見を活用しつつ、Tacotronを刷新することで、高品質で表現力豊かなメルスペクトログラムの合成を実現している。Flowtronは訓練データの尤度を最大化するように最適化されており、これにより学習が単純かつ安定する。また、データを潜在空間に一対一で写像する可逆な変換を学習しており、この潜在空間を操作することで、音声合成のさまざまな側面(発音の高さ、トーン、話速、リズム、発音アクセントなど)を制御可能となる。平均意見スコア(MOS)の評価結果から、Flowtronは最新のTTSモデルと同等の音声品質を達成していることが示された。さらに、音声のバリエーション制御、サンプル間の補間、訓練時に観測された・されなかった話者間のスタイル転送に関する実験結果も提示する。コードおよび事前学習済みモデルは、https://github.com/NVIDIA/flowtron にて公開される予定である。