HyperAIHyperAI

Command Palette

Search for a command to run...

Un Cadre centré sur les données pour aborder les défis phonétiques et prosodiques dans les modèles génératifs de la parole russe

Kirill Borodin Nikita Vasiliev Vasiliy Kudryavtsev Maxim Maslov Mikhail Gorodnichev Oleg Rogov Grach Mkrtchian

Résumé

La synthèse vocale en russe présente des défis distinctifs, notamment la réduction des voyelles, la dévoisement des consonnes, les modulations variables de l'accentuation, l'ambiguïté des homographes et l'intonation artificielle. Cet article introduit Balalaika, un nouveau jeu de données comprenant plus de 2 000 heures d'enregistrements vocaux russes de qualité studio, accompagnés d'annotations textuelles complètes, incluant la ponctuation et les marques d'accentuation. Les résultats expérimentaux montrent que les modèles formés sur Balalaika surpassent significativement ceux formés sur des jeux de données existants dans les tâches de synthèse vocale et d'amélioration du discours. Nous détaillons le processus de construction du jeu de données, la méthodologie d'annotation et les résultats des évaluations comparatives.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp