HyperAIHyperAI
il y a 11 jours

FastSpeech 2 : synthèse vocale texte-à-parole en bout à bout rapide et de haute qualité

Yi Ren, Chenxu Hu, Xu Tan, Tao Qin, Sheng Zhao, Zhou Zhao, Tie-Yan Liu
FastSpeech 2 : synthèse vocale texte-à-parole en bout à bout rapide et de haute qualité
Résumé

Les modèles de synthèse vocale non-autorégressifs (TTS), tels que FastSpeech, permettent de générer de la parole de manière significativement plus rapide que les modèles autorégressifs précédents, tout en maintenant une qualité comparable. L’entraînement du modèle FastSpeech repose sur un modèle enseignant autorégressif pour la prédiction de durée (afin de fournir davantage d’informations en entrée) et sur une distillation de connaissances (afin de simplifier la distribution des données en sortie), ce qui permet de réduire le problème de correspondance un-à-plusieurs (c’est-à-dire que plusieurs variations de parole peuvent correspondre au même texte) dans le TTS. Toutefois, FastSpeech présente plusieurs inconvénients : 1) le pipeline de distillation enseignant-étudiant est complexe et chronophage ; 2) les durées extraites du modèle enseignant ne sont pas assez précises, et les mélo-spectrogrammes cibles distillés à partir du modèle enseignant subissent une perte d’information due à la simplification des données, ce qui limite la qualité vocale. Dans cet article, nous proposons FastSpeech 2, qui résout ces problèmes et améliore la gestion du problème un-à-plusieurs dans le TTS grâce à : 1) l’entraînement direct du modèle avec les cibles réelles (ground-truth), plutôt qu’avec les sorties simplifiées issues du modèle enseignant ; et 2) l’introduction d’informations supplémentaires sur la variation de la parole (par exemple, hauteur, énergie, et des durées plus précises) en tant qu’entrées conditionnelles. Plus précisément, nous extrayons la durée, la hauteur et l’énergie directement à partir du signal vocal, puis utilisons ces valeurs comme entrées conditionnelles pendant l’entraînement, tout en utilisant les valeurs prédites lors de l’inférence. Nous proposons également FastSpeech 2s, qui constitue la première tentative de génération directe du signal vocal à partir du texte de manière parallèle, profitant ainsi d’une inférence entièrement end-to-end. Les résultats expérimentaux montrent que : 1) FastSpeech 2 atteint une accélération d’entraînement de 3 fois par rapport à FastSpeech, tandis que FastSpeech 2s bénéficie d’un temps d’inférence encore plus rapide ; 2) FastSpeech 2 et FastSpeech 2s surpassent FastSpeech en qualité vocale, et FastSpeech 2 peut même dépasser les modèles autorégressifs. Des échantillons audio sont disponibles à l’adresse suivante : https://speechresearch.github.io/fastspeech2/.

FastSpeech 2 : synthèse vocale texte-à-parole en bout à bout rapide et de haute qualité | Articles de recherche récents | HyperAI