HyperAIHyperAI

Command Palette

Search for a command to run...

هرم الهيانا: نحو نماذج لغوية تلافيفية أكبر

Michael Poli Stefano Massaroli Eric Nguyen Daniel Y. Fu Tri Dao Stephen Baccus Yoshua Bengio Stefano Ermon Christopher Ré

الملخص

تُعتمد التطورات الحديثة في التعلم العميق بشكل كبير على استخدام نماذج الترانسفورمر الكبيرة بفضل قدرتها على التعلم على نطاق واسع. ومع ذلك، فإن الوحدة الأساسية في الترانسفورمر، وهي عملية الانتباه (attention)، تُظهر تكلفة تربيعية بالنسبة لطول التسلسل، مما يحد من كمية السياق المتاح للوصول إليه. وتعتمد الطرق الفرعية التربيعية الحالية، التي تستند إلى تقريبات منخفضة الرتبة ونادرة، على دمج طبقات انتباه كثيفة للوصول إلى أداء يُعادل نماذج الترانسفورمر، مما يشير إلى فجوة في الأداء. في هذا العمل، نقترح "هاينا" (Hyena)، بديل فرعي تربيعية يمكن استبداله مباشرة لعملية الانتباه، مُبنى من خلال تداخل تلافيف طويلة ذات معلمات ضمنية وآليات توجيه تُتحكم بها البيانات. وفي مهام الاسترجاع والاستنتاج على تسلسلات تتراوح من آلاف إلى مئات الآلاف من الرموز (tokens)، تُحسن هاينا الدقة بأكثر من 50 نقطة مقارنةً بالعمليات التي تعتمد على فضاءات الحالة والأساليب الضمنية والصريحة الأخرى، مع تحقيق أداء يُعادل النماذج القائمة على الانتباه. ونُسَجِّل حالة جديدة للذروة في الأداء بالنسبة للهياكل غير القائمة على الانتباه الكثيف في مهام نمذجة اللغة على مجموعات بيانات قياسية (WikiText103 وThe Pile)، حيث نصل إلى جودة الترانسفورمر مع خفض بنسبة 20% في حسابات التدريب المطلوبة عند طول تسلسل 2K. كما أن عمليات هاينا أسرع بمرتين من عمليات الانتباه المُحسّنة بشكل عالٍ عند طول تسلسل 8K، وأسرع بـ 100 مرة عند طول تسلسل 64K.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp