Synthèse vocale neuronale en allemand

Bien que de nombreux systèmes de synthèse vocale fondés sur des réseaux de neurones profonds soient soigneusement évalués et mis gratuitement à disposition pour l’anglais, les modèles destinés aux langues ayant beaucoup moins de locuteurs actifs, comme l’allemand, sont rarement entraînés et, dans la majorité des cas, non publiés pour une utilisation courante. Ce travail aborde les défis spécifiques liés à l’entraînement de modèles de synthèse vocale texte-parole pour la langue allemande, notamment le choix des jeux de données et le prétraitement des données, et présente le processus d’entraînement de plusieurs modèles d’un système end-to-end de synthèse vocale basé sur une combinaison de Tacotron 2 et de Multi-Band MelGAN. Toutes les architectures de modèles ont été évaluées selon le score moyen d’opinion (MOS), révélant des résultats comparables à ceux des modèles existants dans la littérature, entraînés et évalués sur des jeux de données en anglais. En outre, des analyses empiriques ont permis d’identifier des aspects distincts influençant la qualité de ces systèmes, fondés sur l’expérience subjective des utilisateurs. Tous les modèles entraînés sont désormais mis à disposition pour une utilisation publique.