HyperAIHyperAI

Command Palette

Search for a command to run...

FastSpeech : Synthèse vocale rapide, robuste et contrôlable

Yi Ren Yangjun Ruan Xu Tan Tao Qin Sheng Zhao Zhou Zhao Tie-Yan Liu

Résumé

Les réseaux de neurones basés sur une approche de bout en bout pour la synthèse vocale à partir du texte (TTS) ont considérablement amélioré la qualité du discours synthétisé. Les méthodes les plus notables (par exemple, Tacotron 2) génèrent généralement d'abord un mel-spectrogramme à partir du texte, puis synthétisent le discours à partir de ce mel-spectrogramme en utilisant un vocodeur comme WaveNet. Comparées aux approches traditionnelles concaténatives et statistiques paramétriques, les modèles de bout en bout basés sur des réseaux de neurones souffrent d'une vitesse d'inférence lente, et le discours synthétisé est souvent peu robuste (c'est-à-dire que certains mots sont omis ou répétés) et manque de contrôlabilité (contrôle de la vitesse de la voix ou de la prosodie). Dans cette étude, nous proposons un nouveau réseau feed-forward basé sur le Transformer pour générer des mel-spectrogrammes en parallèle dans le cadre de la TTS. Plus précisément, nous extrayons des alignements d'attention d'un modèle enseignant basé sur un encodeur-décodageur pour prédire la durée des phonèmes, qui est ensuite utilisée par un régulateur de longueur pour élargir la séquence source de phonèmes afin qu'elle corresponde à la longueur de la séquence cible du mel-spectrogramme pour une génération parallèle des mel-spectrogrammes. Les expériences menées sur l'ensemble de données LJSpeech montrent que notre modèle parallèle correspond aux modèles auto-régressifs en termes de qualité du discours, élimine presque entièrement le problème d'omission et de répétition des mots dans les cas particulièrement difficiles, et peut ajuster la vitesse de la voix en douceur. Le point crucial est que, comparativement aux modèles TTS Transformer auto-régressifs, notre modèle accélère la génération des mel-spectrogrammes par 270 fois et la synthèse vocale intégrale par 38 fois. C'est pourquoi nous appelons notre modèle FastSpeech.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp