HyperAIHyperAI
منذ 17 أيام

تحسين الحالة السابقة لأفضل تقنيات التعرف على الصوت الفريزي عن طريق التحسين الدقيق لـ XLS-R

{Golshid Shekoufandeh, Dragoș Alexandru Bălan}
الملخص

تمثّل تقنية التعرف التلقائي على الكلام (ASR)، التي تحوّل الكلام البشري إلى نص، دورًا رئيسيًا في تحويل الاتصال البشري إلى شكل رقمي. وعلى الرغم من أهميتها، فإن معظم هذه الأنظمة تم تصميمها لصالح اللغات ذات الموارد العالية، مثل الإنجليزية أو الصينية أو الإسبانية، مما يترك اللغات ذات الموارد المنخفضة، مثل الفريزيان، دون تمثيل كافٍ. لمعالجة هذه المشكلة، نقدّم في هذا البحث نموذجًا مُعدّلًا دقيقًا لتقنية ASR يستند إلى بنية Wav2Vec 2.0 XLS-R، ومُدرّبًا على مجموعة بيانات Common Voice الإصدار 12.0، بهدف تحويل كلام اللغة الفريزيان إلى نص. وبمعدل تعلّم قدره 8e-5، حقق النظام المقترح معدل خطأ كلمة (WER) قدره 15.99٪، متفوّقًا على أفضل نموذج سابق كان يبلغ 16.25٪، ويُشكّل بذلك معيارًا مرجعيًا للبحوث المستقبلية في هذا المجال.