HyperAIHyperAI
il y a 17 jours

Sagalee : un ensemble de données open source de reconnaissance automatique de la parole pour la langue oromo

Turi Abu, Ying Shi, Thomas Fang Zheng, Dong Wang
Sagalee : un ensemble de données open source de reconnaissance automatique de la parole pour la langue oromo
Résumé

Nous présentons un nouveau jeu de données de reconnaissance automatique de la parole (ASR) pour la langue oromoy, une langue largement parlée en Éthiopie et dans les régions avoisinantes. Ce jeu de données a été collecté dans le cadre d'une initiative de collecte participative, incluant une diversité de locuteurs et de variations phonétiques. Il comprend 100 heures d'enregistrements audio réels accompagnés de transcriptions, couvrant des énoncés lus dans des environnements à la fois propres et bruyants. Ce jeu de données répond à un besoin critique en ressources ASR pour la langue oromoy, actuellement sous-représentée. Pour démontrer son utilité pour la tâche d'ASR, nous avons mené des expériences utilisant le modèle Conformer, obtenant un taux d'erreur de mot (WER) de 15,32 % avec une perte hybride CTC et AED, et un WER de 18,74 % avec une perte CTC pure. En outre, le fine-tuning du modèle Whisper a permis d'atteindre un WER significativement amélioré de 10,82 %. Ces résultats établissent des références pour l'ASR en oromoy, mettant en lumière à la fois les défis et le potentiel d'amélioration des performances en reconnaissance de la parole pour cette langue. Le jeu de données est disponible publiquement à l'adresse suivante : https://github.com/turinaf/sagalee, et nous encourageons son utilisation pour des recherches et développements ultérieurs dans le domaine du traitement du langage parlé oromoy.