منذ 7 أشهر

الملخص

تمثّل تقنية التعرف التلقائي على الكلام (ASR)، التي تحوّل الكلام البشري إلى نص، دورًا رئيسيًا في تحويل الاتصال البشري إلى شكل رقمي. وعلى الرغم من أهميتها، فإن معظم هذه الأنظمة تم تصميمها لصالح اللغات ذات الموارد العالية، مثل الإنجليزية أو الصينية أو الإسبانية، مما يترك اللغات ذات الموارد المنخفضة، مثل الفريزيان، دون تمثيل كافٍ. لمعالجة هذه المشكلة، نقدّم في هذا البحث نموذجًا مُعدّلًا دقيقًا لتقنية ASR يستند إلى بنية Wav2Vec 2.0 XLS-R، ومُدرّبًا على مجموعة بيانات Common Voice الإصدار 12.0، بهدف تحويل كلام اللغة الفريزيان إلى نص. وبمعدل تعلّم قدره 8e-5، حقق النظام المقترح معدل خطأ كلمة (WER) قدره 15.99٪، متفوّقًا على أفضل نموذج سابق كان يبلغ 16.25٪، ويُشكّل بذلك معيارًا مرجعيًا للبحوث المستقبلية في هذا المجال.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار