HyperAIHyperAI

Command Palette

Search for a command to run...

ساغالي: مجموعة بيانات مفتوحة المصدر للإعصار الصوتي التلقائي للغة الأورومو

Turi Abu Ying Shi Thomas Fang Zheng Dong Wang

الملخص

نقدّم مجموعة بيانات جديدة للتمييز التلقائي للصوت (ASR) بلغة أورومو، وهي لغة شائعة الاستخدام في إثيوبيا ومناطق الجوار. تم جمع هذه المجموعة من خلال مبادرة توظيف جماعي، وتشمل مجموعة متنوعة من المتكلمين والتباينات الصوتية. تتكوّن المجموعة من 100 ساعة من تسجيلات صوتية حقيقية مصحوبة بنصوص مكتوبة، وتغطي الكلام المقروء في بيئات نظيفة وبيئات مزدحمة. تُعوّض هذه المجموعة الحاجة الحاسمة إلى موارد تمييز الصوت للغة أورومو، التي تُعتبر مُهمَّشة في هذا المجال. ولإظهار مدى ملاءمتها لمهام تمييز الصوت، أجرينا تجارب باستخدام نموذج Conformer، حيث حقق أداءً بنسبة خطأ كلمة (WER) بلغت 15.32% باستخدام خسارة هجينة (CTC وAED)، و18.74% باستخدام خسارة CTC فقط. بالإضافة إلى ذلك، أدى تدريب النموذج المُعدّل من Whisper إلى تحسين ملحوظ، حيث بلغت نسبة الخطأ 10.82%. تُشكّل هذه النتائج قواعد معيارية لتمييز الصوت في اللغة أورومو، وتُبرز كلًا من التحديات والفرص الكامنة لتحسين الأداء في هذا المجال. تم إتاحة المجموعة للعامة عبر الرابط: https://github.com/turinaf/sagalee، ونُشجّع على استخدامها في الأبحاث والتطوير المستقبليين في معالجة الصوت باللغة أورومو.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
ساغالي: مجموعة بيانات مفتوحة المصدر للإعصار الصوتي التلقائي للغة الأورومو | مستندات | HyperAI