التسمية الوهمية التكرارية للتعرف على الصوت

أظهر التسمية الوهمية (Pseudo-labeling) مؤخرًا إمكانات واعدة في التعرف التلقائي على الكلام (ASR) من الطرف إلى الطرف. ندرس خوارزمية التسمية الوهمية التكرارية (Iterative Pseudo-Labeling - IPL)، وهي خوارزمية شبه مراقبة تُطبّق بشكل فعّال عدة تكرارات من التسمية الوهمية على البيانات غير المُعلّمة أثناء تطوّر النموذج الصوتي. وبشكل خاص، تقوم IPL بضبط النموذج القائم في كل تكرار باستخدام كل من البيانات المُعلّمة وجزء من البيانات غير المُعلّمة. وندرس المكونات الرئيسية لـ IPL، وهي فك الترميز باستخدام نموذج لغوي وتكبير البيانات. ثم نُظهر فعالية IPL من خلال تحقيق أفضل معدلات خطأ كلمة (Word-Error Rate) على مجموعات اختبار Librispeech في كل من البيئات القياسية والبيئات منخفضة الموارد. كما ندرس تأثير نماذج لغوية تم تدريبها على مجموعات نصية مختلفة، مما يُظهر أن IPL يمكنها الاستفادة الفعّالة من النصوص الإضافية. وأخيرًا، نُطلق Corpus نصي كبير ومتخصص (in-domain) جديدًا لا يتقاطع مع نصوص التدريب الخاصة بـ Librispeech، وذلك لتشجيع الأبحاث في مجال التعرف التلقائي على الكلام شبه المراقب ومنخفض الموارد.