HyperAIHyperAI
il y a 11 jours

Grad-TTS : Un modèle probabiliste de diffusion pour la synthèse vocale à partir de texte

Vadim Popov, Ivan Vovk, Vladimir Gogoryan, Tasnima Sadekova, Mikhail Kudinov
Grad-TTS : Un modèle probabiliste de diffusion pour la synthèse vocale à partir de texte
Résumé

Récemment, les modèles probabilistes de diffusion débruitants et l’apprentissage par correspondance de score générative ont démontré un fort potentiel pour modéliser des distributions de données complexes. En outre, le calcul stochastique a offert une perspective unifiée de ces techniques, permettant des schémas d’inférence souples. Dans cet article, nous introduisons Grad-TTS, un nouveau modèle de synthèse vocale à partir de texte, basé sur un décodeur à score, qui génère des mélo-spectrogrammes en transformant progressivement un bruit prédit par l’encodeur, aligné avec l’entrée textuelle grâce à une recherche d’alignement monotone. Le cadre des équations différentielles stochastiques nous permet de généraliser les modèles probabilistes de diffusion classiques au cas de la reconstruction de données à partir du bruit avec des paramètres différents, tout en rendant cette reconstruction flexible grâce au contrôle explicite du compromis entre qualité sonore et vitesse d’inférence. Une évaluation humaine subjective montre que Grad-TTS est compétitif avec les approches de pointe en matière de score moyen d’opinion (Mean Opinion Score). Le code sera bientôt mis à disposition publiquement.

Grad-TTS : Un modèle probabiliste de diffusion pour la synthèse vocale à partir de texte | Articles de recherche récents | HyperAI