HyperAIHyperAI

Command Palette

Search for a command to run...

مابا: نمذجة التسلسلات بوقت خطي مع الفضاءات الحالة الاختيارية

Albert Gu Tri Dao

الملخص

النماذج الأساسية، التي تُعدّ الآن قوة الدفع وراء معظم التطبيقات المثيرة في التعلم العميق، تعتمد تقريبًا بشكل عام على بنية المُحَوِّل (Transformer) ووحدة الانتباه الأساسية فيها. تم تطوير العديد من الهياكل التي تعمل في زمن أقل من التربيعية، مثل الانتباه الخطي، والانسيابية المُحدَّدة (gated convolution)، والنموذج المتسلسل (recurrent models)، ونماذج الفضاء الحالة المُنظَّمة (SSMs)، بهدف معالجة عدم الكفاءة الحسابية للمُحَوِّل عند التعامل مع التسلسلات الطويلة، لكنها لم تُحقق أداءً مماثلًا لوحدة الانتباه في مجالات مهمة مثل اللغة. نحن نحدد أن الضعف الرئيسي لهذه النماذج يكمن في عدم قدرتها على إجراء استنتاجات قائمة على المحتوى، ونُقدّم عدة تحسينات. أولاً، ببساطة جعل معلمات نموذج SSM دالة على عنوان المدخل، يعالج هذه الضعف في النماذج المنفصلة، ما يسمح للنموذج باختيار نقل أو نسيان المعلومات على طول بُعد طول التسلسل وفقًا للرمز الحالي. ثانيًا، رغم أن هذا التغيير يمنع استخدام الانسيابيات الفعّالة، نصمم خوارزمية متوازية تراعي البنية الصلبة (hardware-aware) في الوضع المتسلسل. ونُدمج هذه النماذج SSM المُختارة في هيكل شبكة عصبية مبسطة تعمل من البداية إلى النهاية دون الحاجة إلى وحدات انتباه أو حتى وحدات MLP (Mamba). يتمتع مبنا بسرعة استجابة عالية (بما يزيد عن 5 أضعاف كفاءة المُحَوِّل في السعة الإنتاجية) وينمو بشكل خطي مع طول التسلسل، وتحسّن أداؤه على البيانات الحقيقية حتى التسلسلات التي تصل إلى مليون رمز. كنموذج تسلسلي عام، يحقق مبنا أفضل أداءً في مستوى الحالة الحالية عبر عدة مجالات مثل اللغة، والصوت، والجينوميات. وفي نمذجة اللغة، يتفوق نموذج مبنا-3B على نماذج المُحَوِّل ذات الحجم نفسه، ويتقاسى مع نماذج المُحَوِّل التي تضاعف حجمه، سواء في التدريب المسبق أو في التقييم التبعي.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
مابا: نمذجة التسلسلات بوقت خطي مع الفضاءات الحالة الاختيارية | مستندات | HyperAI