منذ 7 أشهر

الملخص

نستكشف التدريب المسبق غير المشرف للاعتراف بالكلام من خلال تعلم تمثيلات الصوت الخام. يتم تدريب wav2vec على كميات كبيرة من بيانات الصوت غير المصنفة، ثم استخدام التمثيلات الناتجة لتحسين تدريب النموذج الصوتي. نقوم بتدريب شبكة عصبية متعددة الطبقات بسيطة ومُحسَّنة عبر مهمة تصنيف ثنائية مقارنة الضوضاء. تُظهر تجاربنا على مجموعة WSJ اختزال نسبة الأخطاء الكلامية (WER) بنسبة تصل إلى 36% عندما تكون هناك ساعات قليلة فقط من البيانات المنقحة متاحة. يحقق نهجنا نسبة أخطاء كلامية قدرها 2.43% في مجموعة الاختبار nov92. هذا يتفوق على نظام Deep Speech 2، أفضل نظام مبني على الحروف مبلغ عنه في الأدب العلمي، مع استخدام كمية أقل بمقدارين من البيانات المصنفة للتدريب.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار