التدريب الذاتي والتدريب المسبق متكاملان في التعرف على الصوت

أصبح التدريب الذاتي والتدريب المسبق غير المراقب طريقتين فعالتين لتحسين أنظمة التعرف على الصوت باستخدام بيانات غير مُدرَّسة. ومع ذلك، لا يزال غير واضح ما إذا كانت هذه الأساليب تتعلم أنماطًا متشابهة، أو ما إذا كان بالإمكان دمجهما بشكل فعّال. في هذه الورقة، نُظهر أن تسمية الكيانات الوهمية (pseudo-labeling) والتدريب المسبق باستخدام wav2vec 2.0 مكملان في مجموعة متنوعة من بيئات البيانات المُدرَّسة. باستخدام فقط 10 دقائق من البيانات المُدرَّسة من Libri-light، بالإضافة إلى 53 ألف ساعة من البيانات غير المُدرَّسة من LibriVox، تم تحقيق معدلات خطأ الكلام (WER) البالغة 3.0٪/5.2٪ على مجموعتي الاختبار النظيفتين والآخريين من Librispeech – وهي نتائج تُنافس أفضل الأنظمة المنشورة التي تم تدريبها سابقًا على 960 ساعة فقط من البيانات المُدرَّسة. أما عند التدريب على جميع البيانات المُدرَّسة من Librispeech، فقد تم تحقيق معدلات خطأ بلغت 1.5٪/3.1٪.