ساغالي: مجموعة بيانات مفتوحة المصدر للإعصار الصوتي التلقائي للغة الأورومو

نقدّم مجموعة بيانات جديدة للتمييز التلقائي للصوت (ASR) بلغة أورومو، وهي لغة شائعة الاستخدام في إثيوبيا ومناطق الجوار. تم جمع هذه المجموعة من خلال مبادرة توظيف جماعي، وتشمل مجموعة متنوعة من المتكلمين والتباينات الصوتية. تتكوّن المجموعة من 100 ساعة من تسجيلات صوتية حقيقية مصحوبة بنصوص مكتوبة، وتغطي الكلام المقروء في بيئات نظيفة وبيئات مزدحمة. تُعوّض هذه المجموعة الحاجة الحاسمة إلى موارد تمييز الصوت للغة أورومو، التي تُعتبر مُهمَّشة في هذا المجال. ولإظهار مدى ملاءمتها لمهام تمييز الصوت، أجرينا تجارب باستخدام نموذج Conformer، حيث حقق أداءً بنسبة خطأ كلمة (WER) بلغت 15.32% باستخدام خسارة هجينة (CTC وAED)، و18.74% باستخدام خسارة CTC فقط. بالإضافة إلى ذلك، أدى تدريب النموذج المُعدّل من Whisper إلى تحسين ملحوظ، حيث بلغت نسبة الخطأ 10.82%. تُشكّل هذه النتائج قواعد معيارية لتمييز الصوت في اللغة أورومو، وتُبرز كلًا من التحديات والفرص الكامنة لتحسين الأداء في هذا المجال. تم إتاحة المجموعة للعامة عبر الرابط: https://github.com/turinaf/sagalee، ونُشجّع على استخدامها في الأبحاث والتطوير المستقبليين في معالجة الصوت باللغة أورومو.