wav2vec 2.0: إطار لتعلم تمثيلات الصوت بأسلوب تلقائي التدريب

نُظهر لأول مرة أن تعلُّم تمثيلات قوية من الصوت الصوتي وحده، تليها عملية تحسين دقيق (fine-tuning) باستخدام بيانات صوتية مكتوبة، يمكن أن تتفوّق على أفضل الطرق شبه المُراقبة، مع بساطة مفاهيمية أكبر. يُغطّي نموذج wav2vec 2.0 إدخال الصوت في الفضاء الخفي، ويحلّ مسألة تقابلية (contrastive task) مُعرّفة على كمّية مُكوّنة من التمثيلات الخفية التي تُدرَّس بشكل مشترك. أظهرت التجارب التي استخدمت جميع البيانات المُصنّفة من مجموعة Librispeech تحقيق معدل خطأ كلمات (WER) قدره 1.8/3.3 على مجموعتي الاختبار النظيف/الآخريات. وعند تقليل كمية البيانات المُصنّفة إلى ساعة واحدة، تفوق wav2vec 2.0 على أفضل النتائج السابقة على مجموعة بيانات 100 ساعة، مع استخدام كمية بيانات مُصنّفة تقل عن 100 مرة. وحتى باستخدام عشر دقائق فقط من البيانات المُصنّفة، مع التدريب المسبق على 53 ألف ساعة من البيانات غير المُصنّفة، تم تحقيق معدلات خطأ كلمات قدرها 4.8/8.2. مما يُظهر إمكانية تحقيق التعرف على الكلام باستخدام كميات محدودة جدًا من البيانات المُصنّفة.