WaveGlow : Un réseau génératif basé sur les flux pour la synthèse vocale

Dans cet article, nous proposons WaveGlow : un réseau basé sur les flux capable de générer une parole de haute qualité à partir de mél-spectrogrammes. WaveGlow combine des idées issues de Glow et de WaveNet afin d'offrir une synthèse audio rapide, efficace et de haute qualité, sans nécessiter une régression automatique. WaveGlow est mis en œuvre à l'aide d'un seul réseau, formé en utilisant une seule fonction de coût : maximiser la vraisemblance des données d'entraînement, ce qui rend la procédure d'entraînement simple et stable. Notre implémentation PyTorch produit des échantillons audio à un taux supérieur à 500 kHz sur une GPU NVIDIA V100. Les Scores Moyens d'Opinion (Mean Opinion Scores) montrent qu'il fournit une qualité audio comparable à celle de la meilleure implémentation publiquement disponible de WaveNet. L'ensemble du code sera rendu publiquement accessible en ligne.