HyperAIHyperAI

Command Palette

Search for a command to run...

wav2vec: التدريب غير المشرف لفهم الكلام

Steffen Schneider Alexei Baevski Ronan Collobert Michael Auli

الملخص

نستكشف التدريب المسبق غير المشرف للاعتراف بالكلام من خلال تعلم تمثيلات الصوت الخام. يتم تدريب wav2vec على كميات كبيرة من بيانات الصوت غير المصنفة، ثم استخدام التمثيلات الناتجة لتحسين تدريب النموذج الصوتي. نقوم بتدريب شبكة عصبية متعددة الطبقات بسيطة ومُحسَّنة عبر مهمة تصنيف ثنائية مقارنة الضوضاء. تُظهر تجاربنا على مجموعة WSJ اختزال نسبة الأخطاء الكلامية (WER) بنسبة تصل إلى 36% عندما تكون هناك ساعات قليلة فقط من البيانات المنقحة متاحة. يحقق نهجنا نسبة أخطاء كلامية قدرها 2.43% في مجموعة الاختبار nov92. هذا يتفوق على نظام Deep Speech 2، أفضل نظام مبني على الحروف مبلغ عنه في الأدب العلمي، مع استخدام كمية أقل بمقدارين من البيانات المصنفة للتدريب.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp