نموذج حالة متعددة الرؤوس لنموذج التعرف على الصوت

أظهرت نماذج الفضاء الحالة (SSMs) مؤخرًا نتائج واعدة في مهام التسلسل الصغيرة ونمذجة اللغة، تتفوق أو توازي العديد من النماذج القائمة على الانتباه. في هذه الورقة، نقترح معمارية متعددة الرؤوس للفضاء الحالة (MH-SSM) مزودة بآليات توجيه خاصة، حيث تُدرّس الرؤوس المتوازية على تعلّم الديناميكيات الزمنية المحلية والعالمية في بيانات التسلسل. بوصفها بديلًا مباشرًا لآلية الانتباه متعددة الرؤوس في مُشَبّكات الترانسفورمر، تتفوّق هذه النموذج الجديد بشكل كبير على نموذج الترانسفورمر-المحول (Transformer Transducer) على مجموعة بيانات التعرف على الصوت LibriSpeech. علاوةً على ذلك، قمنا بتعزيز وحدة الترانسفورمر بإضافة طبقات MH-SSM، والمعروفة باسم Stateformer، مما أتاح تحقيق أداء متقدّم جدًا في مهمة LibriSpeech، بواقع معدلات أخطاء كلمات قدرها 1.76٪/4.37٪ على مجموعة التدريب، و1.91٪/4.36٪ على مجموعة الاختبار، دون استخدام نموذج لغوي خارجي.