HyperAIHyperAI

Command Palette

Search for a command to run...

تحسين الحالة السابقة لأفضل تقنيات التعرف على الصوت الفريزي عن طريق التحسين الدقيق لـ XLS-R

Golshid Shekoufandeh Dragoș Alexandru Bălan

الملخص

تمثّل تقنية التعرف التلقائي على الكلام (ASR)، التي تحوّل الكلام البشري إلى نص، دورًا رئيسيًا في تحويل الاتصال البشري إلى شكل رقمي. وعلى الرغم من أهميتها، فإن معظم هذه الأنظمة تم تصميمها لصالح اللغات ذات الموارد العالية، مثل الإنجليزية أو الصينية أو الإسبانية، مما يترك اللغات ذات الموارد المنخفضة، مثل الفريزيان، دون تمثيل كافٍ. لمعالجة هذه المشكلة، نقدّم في هذا البحث نموذجًا مُعدّلًا دقيقًا لتقنية ASR يستند إلى بنية Wav2Vec 2.0 XLS-R، ومُدرّبًا على مجموعة بيانات Common Voice الإصدار 12.0، بهدف تحويل كلام اللغة الفريزيان إلى نص. وبمعدل تعلّم قدره 8e-5، حقق النظام المقترح معدل خطأ كلمة (WER) قدره 15.99٪، متفوّقًا على أفضل نموذج سابق كان يبلغ 16.25٪، ويُشكّل بذلك معيارًا مرجعيًا للبحوث المستقبلية في هذا المجال.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تحسين الحالة السابقة لأفضل تقنيات التعرف على الصوت الفريزي عن طريق التحسين الدقيق لـ XLS-R | مستندات | HyperAI