HyperAI
vor 11 Tagen

Ein datenorientierter Rahmen zur Bewältigung phonetischer und prosodischer Herausforderungen in russischen Sprachgenerativen Modellen

Kirill Borodin, Nikita Vasiliev, Vasiliy Kudryavtsev, Maxim Maslov, Mikhail Gorodnichev, Oleg Rogov, Grach Mkrtchian
Ein datenorientierter Rahmen zur Bewältigung phonetischer und prosodischer Herausforderungen in russischen Sprachgenerativen Modellen
Abstract

Die russische Sprachsynthese stellt besondere Herausforderungen dar, darunter die Vokalreduktion, die Entvoilung von Konsonanten, variierende Betonungsmuster, Homographenambiguität und unnatürliche Intonation. In dieser Arbeit wird Balalaika vorgestellt, ein neues Datensatz mit über 2.000 Stunden studiotauglicher russischer Sprache, der umfassende textuelle Anmerkungen enthält, einschließlich Satzzeichen und Betonungsmarkierungen. Experimentelle Ergebnisse zeigen, dass Modelle, die auf Balalaika trainiert wurden, in den Aufgaben der Sprachsynthese und -verbesserung signifikant besser abschneiden als solche, die auf bestehenden Datensätzen trainiert wurden. Wir beschreiben den Erstellungspipeline des Datensatzes, die Annotationsmethodik sowie die Ergebnisse vergleichender Evaluierungen.