نموذج Samba-asr متقدم في التعرف على الصوت يعتمد على نماذج الفضاء المُنظَّمة للحالة

نُقدّم نموذج Samba ASR، أول نموذج حديث في التعرف التلقائي على الكلام (ASR) يعتمد على البنية المبتكرة Mamba كمُشَكِّل (Encoder) وفَكَّار (Decoder) معًا، مبنيًا على أساس النماذج الفضائية الحالة (SSMs). على عكس نماذج ASR القائمة على المُحَوِّل (Transformer)، التي تعتمد على آليات الانتباه الذاتي لاستخلاص الاعتماديات، يُعدّ Samba ASR قادرًا على نمذجة الاعتماديات الزمنية المحلية والعالمية بكفاءة من خلال الديناميات الفضائية الحالة، مما يُحقّق مكاسب أداء ملحوظة. وبمعالجة القيود المفروضة على نماذج المُحَوِّل، مثل التوسع التربيعي مع طول المدخلات وصعوبة التعامل مع الاعتماديات طويلة المدى، يحقق Samba ASR دقة وفعالية متفوّقة.أظهرت النتائج التجريبية أن Samba ASR يتفوّق على النماذج المفتوحة المصدر القائمة على المُحَوِّل في مجموعة متنوعة من المعايير القياسية، مما يجعله الحد الأقصى الحالي في مجال ASR. كما أظهرت التقييمات الواسعة على مجموعات بيانات معيارية تحسينات كبيرة في معدل الخطأ الكلمي (WER)، مع أداء تنافسي حتى في السيناريوهات ذات الموارد المحدودة. علاوةً على ذلك، تُعدّ كفاءة الحوسبة وتحسين عدد المعاملات في بنية Mamba عاملين يُسهمان في جعل Samba ASR حلًا قابلاً للتوسع وموثوقًا في مجموعة متنوعة من مهام ASR.تتمثل مساهماتنا في:- تصميم بنية جديدة لـ Samba ASR تُظهر تفوق النماذج الفضائية الحالة (SSMs) على النماذج القائمة على المُحَوِّل في معالجة التسلسلات الصوتية.- تقييم شامل على معايير عامة يُبرز الأداء المتميز على مستوى الحد الأقصى الحالي.- تحليل للكفاءة الحسابية، والقدرة على الصمود أمام الضوضاء، وقابلية التعميم على التسلسلات المختلفة. تُبرز هذه الدراسة إمكانية استخدام نماذج Mamba SSM كبديل فعّال ودقيق للنماذج القائمة على المُحَوِّل، مما يُمكّن من تحقيق أداء ممتاز في ASR. وباستغلال التطورات في نمذجة الفضاء الحالة، يُعدّ Samba ASR معيارًا جديدًا لأداء ASR والبحث المستقبلي في هذا المجال.