NaturalSpeech : synthèse vocale texte-à-parole en boucle fermée de qualité humaine

La synthèse vocale texte-par-parole (TTS) a connu un progrès rapide tant dans le milieu académique que dans l’industrie au cours des dernières années. Des questions s’imposent naturellement : un système TTS peut-il atteindre une qualité humaine ? Comment définir ou évaluer cette qualité ? Et comment la réaliser ? Dans cet article, nous répondons à ces questions en définissant tout d’abord la qualité humaine à partir de la signification statistique d’une évaluation subjective, en proposant des critères appropriés pour son jugement, puis en développant un système TTS appelé NaturalSpeech, capable d’atteindre une qualité humaine sur un jeu de données de référence. Plus précisément, nous utilisons un autoencodeur variationnel (VAE) pour une génération texte-vers-signaux audio en boucle complète, en intégrant plusieurs modules clés afin d’améliorer la capacité du modèle a priori à partir du texte et de réduire la complexité du modèle a posteriori à partir du signal parlé : pré-entraînement sur les phonèmes, modélisation différentiable de la durée, modélisation bidirectionnelle du modèle a priori et a posteriori, ainsi qu’un mécanisme de mémoire dans le cadre du VAE. Les évaluations expérimentales sur le jeu de données LJSpeech, largement utilisé, montrent que notre système NaturalSpeech atteint un score CMOS (Comparative Mean Opinion Score) de –0,01 par rapport aux enregistrements humains au niveau de la phrase, avec un test de Wilcoxon signé à un niveau de p très supérieur à 0,05, ce qui démontre pour la première fois, sur ce jeu de données, l’absence de différence statistiquement significative entre les synthèses et les enregistrements humains.