الهومبيس الجائعة: نحو نمذجة اللغة باستخدام نماذج الفضاء الحالة

نموذج الفضاء الحالة (SSMs) أظهر أداءً متميزًا في نمذجة التسلسلات في بعض الوسائط، لكنه يُظهر أداءً أقل من نماذج الانتباه (attention) في نمذجة اللغة. علاوةً على ذلك، رغم أن SSMs تُScaling تقريبًا بشكل خطي بالنسبة لطول التسلسل بدلًا من التربيعية كما في النماذج المُعتمدة على الانتباه، إلا أنها ما زالت أبطأ من نماذج Transformer بسبب ضعف استغلالها للموارد الهاردويرية. في هذه الورقة، نحقق تقدمًا في فهم الفجوة في القدرة التعبيرية بين SSMs والانتباه في نمذجة اللغة، وفي تقليل الحواجز الهاردويرية بين النموذجين. أولاً، نستخدم مهامًا مُصطنعة لنمذجة اللغة لفهم الفجوة بين SSMs والانتباه. ونجد أن النماذج الحالية من SSMs تعاني من قدرتين رئيسيتين: استرجاع الرموز السابقة في التسلسل، ومقارنة الرموز عبر التسلسل. وللتفهم الأعمق لتأثير هذه القصور على نمذجة اللغة، نقترح طبقة SSM جديدة تُسمى H3، صُممت صراحةً لتُحسّن هاتين القدرتين. وتشتغل H3 بشكل مُتساوٍ مع نماذج الانتباه في المهام الاصطناعية، وتُحقق فرقًا لا يتجاوز 0.4 في PPL (متوسط اللوغاريتم الاحتمالي) مقارنةً بـ Transformers على مجموعة OpenWebText. علاوةً على ذلك، نُظهر أن نموذج هجين مكوّن من 125 مليون معلمة (H3-attention) والذي يحتفظ بطبقةَي انتباه فقط، يتفوق على نماذج Transformer بفارق 1.0 PPL على OpenWebText. ثانيًا، لتحسين كفاءة تدريب SSMs على الهاردوير الحديث، نقترح خوارزمية FlashConv. تعتمد FlashConv على خوارزمية تحويل فورييه المُدمجة (fused block FFT) لتحسين الكفاءة في التسلسلات التي تصل إلى 8K، وتُقدّم خوارزمية جديدة لنقل الحالة تستغل الخصائص المتكررة (recurrent properties) لـ SSMs لتمكين التوسع إلى تسلسلات أطول. وتحقق FlashConv تسريعًا بنسبة 2× في معيار Long-Range Arena، وتسمح للنماذج الهجينة بإنتاج النصوص بسرعة 2.4 مرة أسرع من نماذج Transformer. باستخدام FlashConv، نُدرّب نماذج هجينة H3-attention بحجم يصل إلى 2.7 مليار معلمة على مجموعة Pile، ونُسجّل نتائج أولية واعدة، حيث تُحقّق نماذجنا انخفاضًا في متوسط اللوغاريتم الاحتمالي مقارنةً بـ Transformers، وتتفوّق عليها في التعلم الصفر-أمثلة (zero-shot) والتعلم بقليل من الأمثلة (few-shot) في غالبية المهام ضمن معيار SuperGLUE.