Nyströmformer: خوارزمية تعتمد على نايتروم لتقريب الانتباه الذاتي

أصبحت نماذج "ترانسفورمرز" أداة قوية لعدد واسع من المهام المتعلقة معالجة اللغة الطبيعية. ويعتبر المكون الرئيسي الذي يُحدث الأداء المبهر لنموذج ترانسفورمر هو آلية الانتباه الذاتي (self-attention)، التي تُشفّر تأثير أو اعتماد كل رمز (token) على الرموز الأخرى ضمن التسلسل. وعلى الرغم من الفوائد الكبيرة التي تقدمها، إلا أن التعقيد التربيعي لآلية الانتباه الذاتي بالنسبة لطول التسلسل المدخل قد حدّ من تطبيقها على التسلسلات الأطول — وهي مسألة تُدرس بنشاط داخل المجتمع البحثي. ولحل هذه المشكلة، نقترح نموذج "نيسترومفورمر" (Nyströmformer)، الذي يُظهر قابلية توسعة مميزة بحسب طول التسلسل. وتنبع فكرة النموذج من تكييف طريقة نيستروم (Nyström method) لتقريب آلية الانتباه الذاتي القياسية بتعقيد $O(n)$، ما يُحسّن من قابلية التوسع. وتسمح هذه القابلية بالتوسع بتطبيق النموذج على تسلسلات أطول تتضمن آلاف الرموز. وقد أجرينا تقييمات على عدة مهام تطبيقية في معيار GLUE وبيانات مراجعات IMDB باستخدام طول تسلسل قياسي، ووجدنا أن نموذج نيسترومفورمر يُحقق أداءً مماثلاً، أو في بعض الحالات أفضل قليلاً، مقارنةً بالانتباه الذاتي القياسي. كما أظهر النموذج أداءً متميزًا مقارنةً بطرق أخرى فعّالة للانتباه الذاتي في مهام التسلسلات الطويلة ضمن معيار Long Range Arena (LRA). يمكن الوصول إلى الكود الخاص بنا عبر الرابط: https://github.com/mlpen/Nystromformer.