CR-CTC: تنظيم الاتساق على CTC لتحسين التعرف على الصوت

يُعد تصنيف الزمن المتصل (CTC) طريقة شائعة الاستخدام في التعرف التلقائي على الكلام (ASR)، ويُعرف ببساطته وفعاليته الحسابية. ومع ذلك، غالبًا ما يفشل في الأداء المعرفي. في هذا العمل، نقترح نموذج CTC المُنظم بالاتساق (CR-CTC)، الذي يفرض اتساقًا بين توزيعين من توزيعات CTC الناتجة عن وجهتين مختلفتين من التحويلات المُضافة للصورة الميل-спектروغرامية للصوت المدخل. نقدم رؤى متعمقة حول سلوكه الأساسي من ثلاث زوايا: 1) يقوم بعملية تعلم ذاتي (self-distillation) بين أزواج عشوائية من النماذج الفرعية التي تعالج وجهات مختلفة من التحويلات المضافة؛ 2) يتعلم تمثيلات سياقية من خلال التنبؤ بحذف المواقع داخل المناطق المُعَمَّاة زمنيًا، خاصة عند زيادة كمية التعمية الزمنية؛ 3) يقلل من توزيعات CTC الشديدة الانتفاخ (القمة العالية جدًا)، مما يقلل من الازدواجية (overfitting) ويعزز قدرة التعميم. أظهرت تجارب واسعة النطاق على مجموعات بيانات LibriSpeech وAishell-1 وGigaSpeech فعالية نموذجنا CR-CTC. فقد عزز الأداء العام لـ CTC بشكل كبير، وحقق نتائج منافسة للحالة الراهنة (state-of-the-art)، مماثلة لتلك التي تُحقَّق باستخدام نماذج الترانسدوكسر أو الأنظمة المدمجة بين CTC ومشغلات الترميز-التحفيز القائمة على الانتباه (CTC/AED). ونُشر الكود الخاص بنا على الرابط: https://github.com/k2-fsa/icefall.