HyperAIHyperAI
منذ 17 أيام

نموذج حالة متعددة الرؤوس لنموذج التعرف على الصوت

Yassir Fathullah, Chunyang Wu, Yuan Shangguan, Junteng Jia, Wenhan Xiong, Jay Mahadeokar, Chunxi Liu, Yangyang Shi, Ozlem Kalinli, Mike Seltzer, Mark J. F. Gales
نموذج حالة متعددة الرؤوس لنموذج التعرف على الصوت
الملخص

أظهرت نماذج الفضاء الحالة (SSMs) مؤخرًا نتائج واعدة في مهام التسلسل الصغيرة ونمذجة اللغة، تتفوق أو توازي العديد من النماذج القائمة على الانتباه. في هذه الورقة، نقترح معمارية متعددة الرؤوس للفضاء الحالة (MH-SSM) مزودة بآليات توجيه خاصة، حيث تُدرّس الرؤوس المتوازية على تعلّم الديناميكيات الزمنية المحلية والعالمية في بيانات التسلسل. بوصفها بديلًا مباشرًا لآلية الانتباه متعددة الرؤوس في مُشَبّكات الترانسفورمر، تتفوّق هذه النموذج الجديد بشكل كبير على نموذج الترانسفورمر-المحول (Transformer Transducer) على مجموعة بيانات التعرف على الصوت LibriSpeech. علاوةً على ذلك، قمنا بتعزيز وحدة الترانسفورمر بإضافة طبقات MH-SSM، والمعروفة باسم Stateformer، مما أتاح تحقيق أداء متقدّم جدًا في مهمة LibriSpeech، بواقع معدلات أخطاء كلمات قدرها 1.76٪/4.37٪ على مجموعة التدريب، و1.91٪/4.36٪ على مجموعة الاختبار، دون استخدام نموذج لغوي خارجي.

نموذج حالة متعددة الرؤوس لنموذج التعرف على الصوت | أحدث الأوراق البحثية | HyperAI