Glow-TTS : Un flux génératif pour la synthèse vocale à partir de texte via une recherche d’alignement monotone

Récemment, des modèles de synthèse vocale text-to-speech (TTS) tels que FastSpeech et ParaNet ont été proposés afin de générer des mel-spectrogrammes à partir de texte de manière parallèle. Bien que ces modèles parallèles offrent un avantage en termes de vitesse, ils ne peuvent être entraînés sans l'assistance de modèles TTS autoregressifs, qui servent de « aligneurs externes ». Dans ce travail, nous proposons Glow-TTS, un modèle génératif basé sur les flows pour la TTS parallèle, qui ne nécessite aucun aligneur externe. En combinant les propriétés des flows et de la programmation dynamique, le modèle proposé recherche lui-même l’alignement monotone le plus probable entre le texte et la représentation latente du discours. Nous démontrons que l’imposition d’alignements monotones stricts permet une synthèse vocale robuste, capable de généraliser à des énoncés longs, tandis que l’utilisation de flows génératifs permet une synthèse rapide, diversifiée et contrôlable. Glow-TTS obtient un gain de vitesse d’un ordre de grandeur par rapport au modèle autoregressif Tacotron 2, tout en maintenant une qualité vocale comparable. Nous montrons également que notre modèle peut être facilement étendu à un cadre multi-parlants.