il y a 6 mois

Xu Tan Jiawei Chen Haohe Liu Jian Cong Chen Zhang Yanqing Liu Xi Wang Yichong Leng Yuanhao Yi Lei He

Résumé

La synthèse vocale texte-par-parole (TTS) a connu un progrès rapide tant dans le milieu académique que dans l’industrie au cours des dernières années. Des questions s’imposent naturellement : un système TTS peut-il atteindre une qualité humaine ? Comment définir ou évaluer cette qualité ? Et comment la réaliser ? Dans cet article, nous répondons à ces questions en définissant tout d’abord la qualité humaine à partir de la signification statistique d’une évaluation subjective, en proposant des critères appropriés pour son jugement, puis en développant un système TTS appelé NaturalSpeech, capable d’atteindre une qualité humaine sur un jeu de données de référence. Plus précisément, nous utilisons un autoencodeur variationnel (VAE) pour une génération texte-vers-signaux audio en boucle complète, en intégrant plusieurs modules clés afin d’améliorer la capacité du modèle a priori à partir du texte et de réduire la complexité du modèle a posteriori à partir du signal parlé : pré-entraînement sur les phonèmes, modélisation différentiable de la durée, modélisation bidirectionnelle du modèle a priori et a posteriori, ainsi qu’un mécanisme de mémoire dans le cadre du VAE. Les évaluations expérimentales sur le jeu de données LJSpeech, largement utilisé, montrent que notre système NaturalSpeech atteint un score CMOS (Comparative Mean Opinion Score) de –0,01 par rapport aux enregistrements humains au niveau de la phrase, avec un test de Wilcoxon signé à un niveau de p très supérieur à 0,05, ce qui démontre pour la première fois, sur ce jeu de données, l’absence de différence statistiquement significative entre les synthèses et les enregistrements humains.

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Text-to-Speech

Synthèse

Apprentissage Profond

Xu Tan Jiawei Chen Haohe Liu Jian Cong Chen Zhang Yanqing Liu Xi Wang Yichong Leng Yuanhao Yi Lei He

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 6 mois

Text-to-Speech

Synthèse

Apprentissage Profond

Xu Tan Jiawei Chen Haohe Liu Jian Cong Chen Zhang Yanqing Liu Xi Wang Yichong Leng Yuanhao Yi Lei He

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

NaturalSpeech : synthèse vocale texte-à-parole en boucle fermée de qualité humaine

Xu Tan Jiawei Chen Haohe Liu Jian Cong Chen Zhang Yanqing Liu Xi Wang Yichong Leng Yuanhao Yi Lei He4 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

NaturalSpeech : synthèse vocale texte-à-parole en boucle fermée de qualité humaine

Xu Tan Jiawei Chen Haohe Liu Jian Cong Chen Zhang Yanqing Liu Xi Wang Yichong Leng Yuanhao Yi Lei He4 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

NaturalSpeech : synthèse vocale texte-à-parole en boucle fermée de qualité humaine

Xu Tan Jiawei Chen Haohe Liu Jian Cong Chen Zhang Yanqing Liu Xi Wang Yichong Leng Yuanhao Yi Lei He4 more

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Xu Tan Jiawei Chen Haohe Liu Jian Cong Chen Zhang Yanqing Liu Xi Wang Yichong Leng Yuanhao Yi Lei He

Xu Tan Jiawei Chen Haohe Liu Jian Cong Chen Zhang Yanqing Liu Xi Wang Yichong Leng Yuanhao Yi Lei He

Xu Tan Jiawei Chen Haohe Liu Jian Cong Chen Zhang Yanqing Liu Xi Wang Yichong Leng Yuanhao Yi Lei He