نقل المعرفة من النماذج اللغوية المُدرّبة مسبقًا إلى معالجات التعرف على الكلام القائمة على Cif من خلال التعلم التسلسلي

أظهرت النماذج اللغوية المُدرَّبة مسبقًا على نطاق واسع (PLMs) إمكانات كبيرة في مهام معالجة اللغة الطبيعية. وقد برزت أيضًا محاولة توظيف قدرات هذه النماذج لتعزيز أنظمة التعرف التلقائي على الكلام (ASR) كاتجاه بحثي واعد. ومع ذلك، قد تكون الدراسات السابقة محدودة بسبب الهياكل غير المرنة للنماذج اللغوية المُدرَّبة مسبقًا، وعدم الاستفادة الكافية منها. ولتخفيف هذه المشكلات، نقترح تقنية الاستخلاص التعلمي الهرمي (HKD) المُطبَّقة على نماذج ASR القائمة على النموذج المستمر المدمج والمنبثق (CIF). ولنقل المعرفة من النماذج اللغوية المُدرَّبة مسبقًا إلى نماذج ASR، تستخدم HKD استخلاص المعرفة عبر الوسائط باستخدام خسارة تباينية على المستوى الصوتي، واستخلاص المعرفة باستخدام خسارة انحدار على المستوى اللغوي. مقارنةً بالنموذج الأصلي القائم على CIF، تحقق طريقةنا خفضًا نسبيًا في معدل الخطأ بنسبة 15% و9% على مجموعتي بيانات AISHELL-1 وLibriSpeech على التوالي.