HyperAIHyperAI
vor 17 Tagen

Sagalee: ein Open-Source-Datensatz für automatische Spracherkennung für die Oromo-Sprache

Turi Abu, Ying Shi, Thomas Fang Zheng, Dong Wang
Sagalee: ein Open-Source-Datensatz für automatische Spracherkennung für die Oromo-Sprache
Abstract

Wir präsentieren ein neuartiges automatisches Spracherkennungs-(ASR-)Datensatz für die Oromo-Sprache, eine weit verbreitete Sprache in Äthiopien und angrenzenden Regionen. Der Datensatz wurde über eine Crowdsourcing-Initiative gesammelt und umfasst eine vielfältige Auswahl an Sprechern sowie phonetische Variationen. Er besteht aus 100 Stunden realitätsnaher Audioaufnahmen mit entsprechenden Transkriptionen und deckt gelesene Sprache sowohl in ruhigen als auch in geräuschkritischen Umgebungen ab. Der Datensatz adressiert die kritische Lücke bei ASR-Ressourcen für die Oromo-Sprache, die bisher stark unterrepräsentiert ist. Um die Anwendbarkeit für ASR-Aufgaben zu demonstrieren, führten wir Experimente mit dem Conformer-Modell durch und erreichten einen Wortfehlerquote (WER) von 15,32 % bei der Kombination aus CTC- und AED-Verlust sowie einen WER von 18,74 % bei reiner CTC-Verlustfunktion. Zudem führte das Feintunen des Whisper-Modells zu einer signifikanten Verbesserung mit einer WER von 10,82 %. Diese Ergebnisse legen Baseline-Werte für die ASR-Verarbeitung der Oromo-Sprache fest und verdeutlichen sowohl die bestehenden Herausforderungen als auch das Potenzial zur weiteren Verbesserung der ASR-Leistung. Der Datensatz ist öffentlich unter https://github.com/turinaf/sagalee verfügbar, und wir ermuntern zur Nutzung für zukünftige Forschung und Entwicklung im Bereich der Oromo-Sprachverarbeitung.