HyperAIHyperAI

Command Palette

Search for a command to run...

NaturalSpeech : synthèse vocale texte-à-parole en boucle fermée de qualité humaine

Résumé

La synthèse vocale texte-par-parole (TTS) a connu un progrès rapide tant dans le milieu académique que dans l’industrie au cours des dernières années. Des questions s’imposent naturellement : un système TTS peut-il atteindre une qualité humaine ? Comment définir ou évaluer cette qualité ? Et comment la réaliser ? Dans cet article, nous répondons à ces questions en définissant tout d’abord la qualité humaine à partir de la signification statistique d’une évaluation subjective, en proposant des critères appropriés pour son jugement, puis en développant un système TTS appelé NaturalSpeech, capable d’atteindre une qualité humaine sur un jeu de données de référence. Plus précisément, nous utilisons un autoencodeur variationnel (VAE) pour une génération texte-vers-signaux audio en boucle complète, en intégrant plusieurs modules clés afin d’améliorer la capacité du modèle a priori à partir du texte et de réduire la complexité du modèle a posteriori à partir du signal parlé : pré-entraînement sur les phonèmes, modélisation différentiable de la durée, modélisation bidirectionnelle du modèle a priori et a posteriori, ainsi qu’un mécanisme de mémoire dans le cadre du VAE. Les évaluations expérimentales sur le jeu de données LJSpeech, largement utilisé, montrent que notre système NaturalSpeech atteint un score CMOS (Comparative Mean Opinion Score) de –0,01 par rapport aux enregistrements humains au niveau de la phrase, avec un test de Wilcoxon signé à un niveau de p très supérieur à 0,05, ce qui démontre pour la première fois, sur ce jeu de données, l’absence de différence statistiquement significative entre les synthèses et les enregistrements humains.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
NaturalSpeech : synthèse vocale texte-à-parole en boucle fermée de qualité humaine | Articles | HyperAI