تجميع أحادي النمط للتصنيف الصوتي القائم على CTC

يُركّز هذا البحث على التعرف التلقائي على الكلام غير التكراري (non-autoregressive automatic speech recognition). ويُقترح فيه نموذج تجميع أحادي النمط (Unimodal Aggregation, UMA) لتقسيم الإطارات المميزة التي تعود إلى نفس الرمز النصي ودمجها، بهدف تعلّم تمثيلات مميزة أفضل للرموز النصية. إذ تُستمد إطارات الميزات والوزن الخاص بها من مشفر (encoder) واحد. ثم تُدمج إطارات الميزات باستخدام الأوزان الأحادية النمطية، وتُعالج لاحقًا بواسطة فاصل (decoder). ويُطبّق خسارة التصنيف الزمني الاتصالي (Connectionist Temporal Classification, CTC) في التدريب. مقارنةً بالـ CTC التقليدي، يتعلّم النهج المُقترح تمثيلات مميزة أفضل ويُقلّص طول التسلسل، مما يؤدي إلى انخفاض في خطأ التعرف وتعقيد الحساب. أظهرت التجارب على ثلاث مجموعات بيانات صوتية باللغة الصينية (المندرينية) أن نموذج UMA يُقدّم أداءً متفوّقًا أو مماثلًا لأفضل الطرق غير التكرارية الأخرى، مثل CTC ذات التحفيز الذاتي (self-conditioned CTC). علاوةً على ذلك، يمكن تحسين الأداء بشكل ملحوظ من خلال دمج CTC ذات التحفيز الذاتي داخل الإطار المقترح.