منذ 2 أشهر
wav2vec: التدريب غير المشرف لفهم الكلام
Steffen Schneider; Alexei Baevski; Ronan Collobert; Michael Auli

الملخص
نستكشف التدريب المسبق غير المشرف للاعتراف بالكلام من خلال تعلم تمثيلات الصوت الخام. يتم تدريب wav2vec على كميات كبيرة من بيانات الصوت غير المصنفة، ثم استخدام التمثيلات الناتجة لتحسين تدريب النموذج الصوتي. نقوم بتدريب شبكة عصبية متعددة الطبقات بسيطة ومُحسَّنة عبر مهمة تصنيف ثنائية مقارنة الضوضاء. تُظهر تجاربنا على مجموعة WSJ اختزال نسبة الأخطاء الكلامية (WER) بنسبة تصل إلى 36% عندما تكون هناك ساعات قليلة فقط من البيانات المنقحة متاحة. يحقق نهجنا نسبة أخطاء كلامية قدرها 2.43% في مجموعة الاختبار nov92. هذا يتفوق على نظام Deep Speech 2، أفضل نظام مبني على الحروف مبلغ عنه في الأدب العلمي، مع استخدام كمية أقل بمقدارين من البيانات المصنفة للتدريب.