الإسقاط التام للصوت إلى النص: من التعلّم المُشرَف إلى التعلّم شبه المُشرَف باستخدام المعماريات الحديثة

نُجري دراسة حول استخدام التسمية الزائفة (pseudo-labeling) في التدريب شبه المراقب لشبكات ResNet وConvNets الزمنية-العمودية القابلة للانفصال (Time-Depth Separable ConvNets) والمحولات (Transformers) لمهام التعرف على الصوت، باستخدام دالة خسارة CTC أو Seq2Seq. نُجري تجاربنا على مجموعة بيانات LibriSpeech القياسية، ونستفيد من بيانات صوتية غير مُسَمَّاة إضافية من منصة LibriVox من خلال تطبيق تقنية التسمية الزائفة. نُظهر أن بينما تُظهر النماذج القائمة على المحولات (Transformers) أداءً متفوقًا عند استخدام مجموعة بيانات مُسَمَّاة فقط، فإن التدريب شبه المراقب يُحسّن أداء جميع النماذج عبر المعمارية ودوال الخسارة، ويُقلل بشكل كبير من الفجوات الأداء بينها. وبذلك نُحقق حالة جديدة من التقدّم المُحرَّز (state-of-the-art) في النماذج الصوتية النهائية المُفكَّرة باستخدام نموذج لغوي خارجي ضمن الإطار التقليدي للتعلم المراقب، كما نُحقق حالة جديدة من التقدّم المُطلق (absolute state-of-the-art) عند استخدام التدريب شبه المراقب. وأخيرًا، ندرس تأثير استغلال كميات مختلفة من البيانات الصوتية غير المُسَمَّاة، ونُقترح عدة طرق لتقييم خصائص هذه البيانات غير المُسَمَّاة التي تُحسّن نموذج التعرف على الصوت، ونُظهر أن النماذج الصوتية التي تُدرَّب على كميات أكبر من البيانات الصوتية تعتمد بشكل أقل على النماذج اللغوية الخارجية.