W2v-BERT: دمج التعلم المقابل والنمذجة اللغوية المقنعة للتدريب المسبق للصوت ذاتي التعلّم

مُحفَّزين بنجاح نموذج التوليد المُقنَّع للغة (Masked Language Modeling - MLM) في التدريب المسبق لنماذج معالجة اللغة الطبيعية، نقترح نموذج w2v-BERT الذي يستكشف استخدام MLM في تعلم تمثيلات الصوت ذاتية التدريب (self-supervised). يُشكِّل w2v-BERT إطارًا يدمج بين التعلم التبايني (contrastive learning) وMLM، حيث يُدرِّب الأول النموذج على تحويل إشارات الصوت المستمرة إلى مجموعة منتهية من الرموز الصوتية التمييزية، بينما يُدرِّب الثاني النموذج على اكتساب تمثيلات صوتية سياقية من خلال حل مسألة التنبؤ بالرموز المُقنَّعة باستخدام الرموز المُفكَّكة. على عكس الإطارات الحالية القائمة على MLM مثل HuBERT، التي تعتمد على عملية تكرارية لإعادة تجميع البيانات وإعادة التدريب، أو vq-wav2vec، التي تربط بين وحدتين تم تدريبهما بشكل منفصل، يمكن لـ w2v-BERT أن يُحسَّن بطريقة نهائية (end-to-end) من خلال حل المهمتين الذاتيتين للتدريب (المهمة التباينية وMLM) في آنٍ واحد. تُظهر تجاربنا أن w2v-BERT تحقق نتائج تنافسية مقارنةً بالنماذج المُدرَّبة مسبقًا الأفضل حالياً على معيار LibriSpeech عند استخدام مجموعة بيانات Libri-Light~60k كبيانات غير مُعلَّمة. وبشكل خاص، عند المقارنة مع نماذج منشورة مثل conformer-based wav2vec~2.0 وHuBERT، يُظهر نموذجنا تقليلًا نسبيًا في معدل الخطأ في الكلام (WER) يتراوح بين 5% و10% على مجموعتي الاختبار clean وother. كما يتفوَّق w2v-BERT على النموذج الداخلي المبني على conformer لـ wav2vec~2.0 عند تطبيقه على بيانات حركة البحث الصوتي من جوجل، بفارق نسبي يزيد عن 30%.