HyperAIHyperAI
منذ 17 أيام

هرم الهيانا: نحو نماذج لغوية تلافيفية أكبر

Michael Poli, Stefano Massaroli, Eric Nguyen, Daniel Y. Fu, Tri Dao, Stephen Baccus, Yoshua Bengio, Stefano Ermon, Christopher Ré
هرم الهيانا: نحو نماذج لغوية تلافيفية أكبر
الملخص

تُعتمد التطورات الحديثة في التعلم العميق بشكل كبير على استخدام نماذج الترانسفورمر الكبيرة بفضل قدرتها على التعلم على نطاق واسع. ومع ذلك، فإن الوحدة الأساسية في الترانسفورمر، وهي عملية الانتباه (attention)، تُظهر تكلفة تربيعية بالنسبة لطول التسلسل، مما يحد من كمية السياق المتاح للوصول إليه. وتعتمد الطرق الفرعية التربيعية الحالية، التي تستند إلى تقريبات منخفضة الرتبة ونادرة، على دمج طبقات انتباه كثيفة للوصول إلى أداء يُعادل نماذج الترانسفورمر، مما يشير إلى فجوة في الأداء. في هذا العمل، نقترح "هاينا" (Hyena)، بديل فرعي تربيعية يمكن استبداله مباشرة لعملية الانتباه، مُبنى من خلال تداخل تلافيف طويلة ذات معلمات ضمنية وآليات توجيه تُتحكم بها البيانات. وفي مهام الاسترجاع والاستنتاج على تسلسلات تتراوح من آلاف إلى مئات الآلاف من الرموز (tokens)، تُحسن هاينا الدقة بأكثر من 50 نقطة مقارنةً بالعمليات التي تعتمد على فضاءات الحالة والأساليب الضمنية والصريحة الأخرى، مع تحقيق أداء يُعادل النماذج القائمة على الانتباه. ونُسَجِّل حالة جديدة للذروة في الأداء بالنسبة للهياكل غير القائمة على الانتباه الكثيف في مهام نمذجة اللغة على مجموعات بيانات قياسية (WikiText103 وThe Pile)، حيث نصل إلى جودة الترانسفورمر مع خفض بنسبة 20% في حسابات التدريب المطلوبة عند طول تسلسل 2K. كما أن عمليات هاينا أسرع بمرتين من عمليات الانتباه المُحسّنة بشكل عالٍ عند طول تسلسل 8K، وأسرع بـ 100 مرة عند طول تسلسل 64K.

هرم الهيانا: نحو نماذج لغوية تلافيفية أكبر | أحدث الأوراق البحثية | HyperAI