مابا-360: مراجعة للنماذج الفضاءية كبدائل لنموذج المحولات في نمذجة التسلسلات الطويلة: الطرق، التطبيقات، والتحديات

نمذجة التسلسل تمثل مجالًا حيويًا في مختلف المجالات، بما في ذلك معالجة اللغة الطبيعية (NLP)، وتمييز الكلام، وتوقع السلاسل الزمنية، وإنشاء الموسيقى، وعلم الأحياء الحاسوبي. سبق وأن سيطرت الشبكات العصبية التكرارية (RNNs) والشبكات العصبية ذات الذاكرة الطويلة القصيرة (LSTMs) على مهام نمذجة التسلسل مثل الترجمة الآلية، وتمييز الكيانات الاسمية (NER)، إلخ. ومع ذلك، أدت تطورات نماذج المحولات (Transformers) إلى تحوّل في هذا النموذج، نظرًا لأدائها المتفوّق. ومع ذلك، تعاني المحولات من تعقيد انتباه يبلغ $O(N^2)$، بالإضافة إلى صعوبات في التعامل مع التحيّز الاستنتاجي (inductive bias). وقد تم اقتراح عدة تطويرات لمعالجة هذه المشكلات، باستخدام شبكات طيفية أو تحويلات تلافيفية (convolutions)، وقد أظهرت أداءً جيدًا في مجموعة واسعة من المهام. ومع ذلك، لا تزال تواجه صعوبات في التعامل مع التسلسلات الطويلة. ظهرت نماذج الفضاء الحالة (State Space Models - SSMs) كبدائل واعدة لنماذج نمذجة التسلسل في هذا السياق، خاصة مع登ور نموذج S4 ومتغيراته مثل S4nd، Hippo، Hyena، وفضاءات الحالة القطرية (DSS)، وفضاءات الحالة المُحدَّدة (GSS)، ووحدة التكرار الخطية (LRU)، وLiquid-S4، وMamba، وغيرها. في هذه المراجعة، نصنّف النماذج الأساسية لـ SSM بناءً على ثلاث نماذج رئيسية: النماذج المُحدَّدة (Gating architectures)، والنماذج الهيكلية (Structural architectures)، والنماذج التكرارية (Recurrent architectures). كما تسلط هذه المراجعة الضوء على التطبيقات المتنوعة لـ SSM في مجالات متعددة، منها الرؤية، والفيديو، والصوت، والكلام، واللغة (خاصة نمذجة التسلسلات الطويلة)، والطب (بما في ذلك علم الجينوم)، والكيمياء (مثل تصميم الأدوية)، وأنظمة التوصية، وتحليل السلاسل الزمنية، بما في ذلك البيانات الجدولية. علاوةً على ذلك، نُلخّص أداء نماذج SSM على مجموعات بيانات معيارية مثل Long Range Arena (LRA)، وWikiText، وGlue، وPile، وImageNet، وKinetics-400، وsstv2، بالإضافة إلى مجموعات بيانات فيديو مثل Breakfast، وCOIN، وLVU، وعدد من مجموعات البيانات الزمنية. يمكن الاطلاع على صفحة المشروع الخاصة بعمل Mamba-360 من خلال الرابط التالي: \url{https://github.com/badripatro/mamba360}.