2ヶ月前

WaveGlow: 音声合成のためのフローベースの生成ネットワーク

Ryan Prenger; Rafael Valle; Bryan Catanzaro
WaveGlow: 音声合成のためのフローベースの生成ネットワーク
要約

本論文では、WaveGlowというフローに基づくネットワークを提案します。このネットワークはメルスペクトログラムから高品質な音声を生成する能力を持っています。WaveGlowは、GlowとWaveNetの洞察を組み合わせることで、自己回帰(auto-regression)を必要とせずに高速で効率的かつ高品質な音声合成を提供します。WaveGlowは単一のネットワークのみを使用し、訓練データの尤度最大化という単一のコスト関数のみで学習が行われるため、学習プロセスがシンプルかつ安定しています。当社のPyTorch実装では、NVIDIA V100 GPU上で秒間500,000サンプル以上の音声生成速度を達成しています。平均意見得点(Mean Opinion Scores)によると、WaveGlowは公開されている最高品質のWaveNet実装に匹敵する音質を提供することが示されています。本研究に関連するすべてのコードはオンラインで公開される予定です。

WaveGlow: 音声合成のためのフローベースの生成ネットワーク | 最新論文 | HyperAI超神経