Vers la création de systèmes de synthèse vocale pour le milliard d’utilisateurs suivant

Les systèmes de synthèse vocale basés sur l'apprentissage profond (TTS) ont connu une évolution rapide grâce aux progrès réalisés dans les architectures de modèles, les méthodologies d'entraînement et la généralisation entre locuteurs et langues. Cependant, ces avancées n'ont pas été suffisamment étudiées pour la synthèse vocale des langues indiennes. Une telle investigation est coûteuse en termes de calcul, compte tenu du nombre et de la diversité des langues indiennes, de la disponibilité relativement faible des ressources, ainsi que de l'ensemble diversifié d'avancées dans le domaine du TTS neuronal qui restent à tester. Dans cet article, nous évaluons le choix des modèles acoustiques, des vocodeurs, des fonctions de perte supplémentaires, des calendriers d'entraînement et de la diversité des locuteurs et des langues pour les langues dravidiennes et indo-aryennes. Sur cette base, nous identifions les modèles monolingues avec FastPitch et HiFi-GAN V1, entraînés conjointement sur des locuteurs masculins et féminins, comme ceux qui donnent les meilleurs résultats. Avec ce dispositif, nous entraînons et évaluons des modèles TTS pour 13 langues et constatons que nos modèles améliorent significativement les modèles existants dans toutes les langues, selon les scores moyens d'opinion. Nous mettons à disposition tous les modèles sous licence open source sur la plateforme Bhashini.