Command Palette
Search for a command to run...
Youjin Wang Yangjingyi Chen Jiahao Yan Jiaxuan Lu Xiao Sun

الملخص
مع النمو الهائل للبيانات، أصبح نمذجة التسلسلات الطويلة أمرًا متزايد الأهمية في مهام مثل معالجة اللغة الطبيعية والبيوإنفورماتيك. ومع ذلك، تواجه الطرق الحالية تناقضًا جوهريًا بين الكفاءة واستهلاك الذاكرة. تعاني الشبكات العصبية التكرارية من مشكلة تلاشي وانفجار المشتقة، مما يجعلها صعبة التوسع. في المقابل، يمكن لنموذج التحويل (Transformers) نمذجة الاعتماديات العالمية، لكنه يعاني من تعقيد تربيعي. في الآونة الأخيرة، أظهرت نماذج الفضاء الحالة المختارة، مثل Mamba، كفاءة عالية بتعقيد زمني O(n) وتعقيد استنتاج تكراري O(1)، لكن ذاكرتها على المدى الطويل تتدهور بشكل أسي. في هذا العمل، نقوم بتحليل رياضي وتحليل معلوماتي دقيق لاستكشاف آلية تدهور الذاكرة في Mamba بشكل منهجي، مجيبًا على سؤال أساسي: ما طبيعة الذاكرة الطويلة المدى في Mamba، وكيف تُحتفظ بالمعلومات؟ ولقياس الخسارة الرئيسية للمعلومات، نُقدّم مؤشرات جديدة لجودة الذاكرة الأفقية-العمودية، التي تُسجّل التدهور الداخلي داخل الطبقات وكذلك بين الطبقات. مستلهمين من الطريقة التي يُستخلص بها ويُحتفظ بالمعلومات البارزة عند قراءة المستندات الطويلة، نقترح معمارياً جديداً يُسمى MemMamba، يدمج آلية تلخيص الحالة مع انتباه عابر للطبقات وعابر للرموز (tokens)، مما يخفف من مشكلة النسيان الطويل المدى مع الحفاظ على التعقيد الخطي. تحقق MemMamba تحسينات كبيرة مقارنة بالنسخ المطورة من Mamba والنموذج Transformer في مهام تقييم التسلسلات الطويلة مثل PG19 وPasskey Retrieval، مع تحقيق تسريع بنسبة 48٪ في كفاءة الاستنتاج. تُظهر التحليلات النظرية والنتائج التجريبية معًا أن MemMamba حققت تقدماً جوهرياً في التوازن بين التعقيد والذاكرة، مما يُقدّم نموذجاً جديداً لنمذجة التسلسلات الفائقة الطول.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.