HyperAI
il y a 11 jours

Un Cadre centré sur les données pour aborder les défis phonétiques et prosodiques dans les modèles génératifs de la parole russe

Kirill Borodin, Nikita Vasiliev, Vasiliy Kudryavtsev, Maxim Maslov, Mikhail Gorodnichev, Oleg Rogov, Grach Mkrtchian
Un Cadre centré sur les données pour aborder les défis phonétiques et prosodiques dans les modèles génératifs de la parole russe
Résumé

La synthèse vocale en russe présente des défis distinctifs, notamment la réduction des voyelles, la dévoisement des consonnes, les modulations variables de l'accentuation, l'ambiguïté des homographes et l'intonation artificielle. Cet article introduit Balalaika, un nouveau jeu de données comprenant plus de 2 000 heures d'enregistrements vocaux russes de qualité studio, accompagnés d'annotations textuelles complètes, incluant la ponctuation et les marques d'accentuation. Les résultats expérimentaux montrent que les modèles formés sur Balalaika surpassent significativement ceux formés sur des jeux de données existants dans les tâches de synthèse vocale et d'amélioration du discours. Nous détaillons le processus de construction du jeu de données, la méthodologie d'annotation et les résultats des évaluations comparatives.