HyperAIHyperAI
il y a 2 mois

FastSpeech : Synthèse vocale rapide, robuste et contrôlable

Yi Ren; Yangjun Ruan; Xu Tan; Tao Qin; Sheng Zhao; Zhou Zhao; Tie-Yan Liu
FastSpeech : Synthèse vocale rapide, robuste et contrôlable
Résumé

Les réseaux de neurones basés sur une approche de bout en bout pour la synthèse vocale à partir du texte (TTS) ont considérablement amélioré la qualité du discours synthétisé. Les méthodes les plus notables (par exemple, Tacotron 2) génèrent généralement d'abord un mel-spectrogramme à partir du texte, puis synthétisent le discours à partir de ce mel-spectrogramme en utilisant un vocodeur comme WaveNet. Comparées aux approches traditionnelles concaténatives et statistiques paramétriques, les modèles de bout en bout basés sur des réseaux de neurones souffrent d'une vitesse d'inférence lente, et le discours synthétisé est souvent peu robuste (c'est-à-dire que certains mots sont omis ou répétés) et manque de contrôlabilité (contrôle de la vitesse de la voix ou de la prosodie). Dans cette étude, nous proposons un nouveau réseau feed-forward basé sur le Transformer pour générer des mel-spectrogrammes en parallèle dans le cadre de la TTS. Plus précisément, nous extrayons des alignements d'attention d'un modèle enseignant basé sur un encodeur-décodageur pour prédire la durée des phonèmes, qui est ensuite utilisée par un régulateur de longueur pour élargir la séquence source de phonèmes afin qu'elle corresponde à la longueur de la séquence cible du mel-spectrogramme pour une génération parallèle des mel-spectrogrammes. Les expériences menées sur l'ensemble de données LJSpeech montrent que notre modèle parallèle correspond aux modèles auto-régressifs en termes de qualité du discours, élimine presque entièrement le problème d'omission et de répétition des mots dans les cas particulièrement difficiles, et peut ajuster la vitesse de la voix en douceur. Le point crucial est que, comparativement aux modèles TTS Transformer auto-régressifs, notre modèle accélère la génération des mel-spectrogrammes par 270 fois et la synthèse vocale intégrale par 38 fois. C'est pourquoi nous appelons notre modèle FastSpeech.