HyperAIHyperAI

Command Palette

Search for a command to run...

Vers la création de systèmes de synthèse vocale pour le milliard d’utilisateurs suivant

Gokul Karthik Kumar*†1,3,4 Praveen S V *1,2 Pratyush Kumar1,2,4 Mitesh M. Khapra1,2 Karthik Nandakumar3

Résumé

Les systèmes de synthèse vocale basés sur l'apprentissage profond (TTS) ont connu une évolution rapide grâce aux progrès réalisés dans les architectures de modèles, les méthodologies d'entraînement et la généralisation entre locuteurs et langues. Cependant, ces avancées n'ont pas été suffisamment étudiées pour la synthèse vocale des langues indiennes. Une telle investigation est coûteuse en termes de calcul, compte tenu du nombre et de la diversité des langues indiennes, de la disponibilité relativement faible des ressources, ainsi que de l'ensemble diversifié d'avancées dans le domaine du TTS neuronal qui restent à tester. Dans cet article, nous évaluons le choix des modèles acoustiques, des vocodeurs, des fonctions de perte supplémentaires, des calendriers d'entraînement et de la diversité des locuteurs et des langues pour les langues dravidiennes et indo-aryennes. Sur cette base, nous identifions les modèles monolingues avec FastPitch et HiFi-GAN V1, entraînés conjointement sur des locuteurs masculins et féminins, comme ceux qui donnent les meilleurs résultats. Avec ce dispositif, nous entraînons et évaluons des modèles TTS pour 13 langues et constatons que nos modèles améliorent significativement les modèles existants dans toutes les langues, selon les scores moyens d'opinion. Nous mettons à disposition tous les modèles sous licence open source sur la plateforme Bhashini.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp