مابا: نمذجة التسلسلات بوقت خطي مع الفضاءات الحالة الاختيارية

النماذج الأساسية، التي تُعدّ الآن قوة الدفع وراء معظم التطبيقات المثيرة في التعلم العميق، تعتمد تقريبًا بشكل عام على بنية المُحَوِّل (Transformer) ووحدة الانتباه الأساسية فيها. تم تطوير العديد من الهياكل التي تعمل في زمن أقل من التربيعية، مثل الانتباه الخطي، والانسيابية المُحدَّدة (gated convolution)، والنموذج المتسلسل (recurrent models)، ونماذج الفضاء الحالة المُنظَّمة (SSMs)، بهدف معالجة عدم الكفاءة الحسابية للمُحَوِّل عند التعامل مع التسلسلات الطويلة، لكنها لم تُحقق أداءً مماثلًا لوحدة الانتباه في مجالات مهمة مثل اللغة. نحن نحدد أن الضعف الرئيسي لهذه النماذج يكمن في عدم قدرتها على إجراء استنتاجات قائمة على المحتوى، ونُقدّم عدة تحسينات. أولاً، ببساطة جعل معلمات نموذج SSM دالة على عنوان المدخل، يعالج هذه الضعف في النماذج المنفصلة، ما يسمح للنموذج باختيار نقل أو نسيان المعلومات على طول بُعد طول التسلسل وفقًا للرمز الحالي. ثانيًا، رغم أن هذا التغيير يمنع استخدام الانسيابيات الفعّالة، نصمم خوارزمية متوازية تراعي البنية الصلبة (hardware-aware) في الوضع المتسلسل. ونُدمج هذه النماذج SSM المُختارة في هيكل شبكة عصبية مبسطة تعمل من البداية إلى النهاية دون الحاجة إلى وحدات انتباه أو حتى وحدات MLP (Mamba). يتمتع مبنا بسرعة استجابة عالية (بما يزيد عن 5 أضعاف كفاءة المُحَوِّل في السعة الإنتاجية) وينمو بشكل خطي مع طول التسلسل، وتحسّن أداؤه على البيانات الحقيقية حتى التسلسلات التي تصل إلى مليون رمز. كنموذج تسلسلي عام، يحقق مبنا أفضل أداءً في مستوى الحالة الحالية عبر عدة مجالات مثل اللغة، والصوت، والجينوميات. وفي نمذجة اللغة، يتفوق نموذج مبنا-3B على نماذج المُحَوِّل ذات الحجم نفسه، ويتقاسى مع نماذج المُحَوِّل التي تضاعف حجمه، سواء في التدريب المسبق أو في التقييم التبعي.