Transformer طويل القامة-قصير: نماذج Transformers فعّالة للغة والرؤية

حققت نماذج التحويل (Transformers) نجاحًا في كلا المجالين اللغوي والبصري. ومع ذلك، فإن توسيعها لمعالجة التسلسلات الطويلة، مثل المستندات الطويلة أو الصور عالية الدقة، يُعد مكلفًا للغاية، وذلك بسبب التعقيد التوافقي (quadratic) في الزمن والذاكرة الناتج عن آلية الانتباه الذاتي (self-attention) بالنسبة لطول التسلسل المدخل. في هذه الورقة، نقترح نموذج "Transformer-LS" (Transformer طويل-قصير)، وهو آلية انتباه ذاتي فعالة لمعالجة التسلسلات الطويلة، وتتميز بتعقيد خطي (linear complexity) في المهام اللغوية والبصرية على حد سواء. تعتمد هذه الآلية على دمج نوع جديد من الانتباه على المدى الطويل مع تصوير ديناميكي لتمثيل العلاقات البعيدة، بالإضافة إلى انتباه قصير المدى لالتقاط العلاقات المحلية الدقيقة. كما نقترح استراتيجية تطبيع مزدوجة لمعالجة التباين في المقياس بين آلتي الانتباه. يمكن تطبيق Transformer-LS على النماذج المتسلسلة (autoregressive) والثنائية الاتجاه (bidirectional) دون إضافة تعقيد إضافي. تتفوق طريقةنا على أحدث النماذج في مجموعة متنوعة من المهام في المجالات اللغوية والبصرية، بما في ذلك معيار Long Range Arena، ونمذجة اللغة المتسلسلة، وتصنيف ImageNet. على سبيل المثال، حقق Transformer-LS معدلًا قدره 0.97 في اختبار BPC على مجموعة enwik8 باستخدام نصف عدد المعلمات مقارنة بالطريقة السابقة، مع سرعة أعلى وقدرة على معالجة تسلسلات أطول بثلاث مرات مقارنة بالإصدار الكامل للانتباه على نفس الأجهزة. أما في ImageNet، فقد تمكّن من تحقيق نتائج رائدة (مثل نموذج متوسط الحجم بـ 55.8 مليون معلمة، تم تدريبه فقط على صور ImageNet-1K بحجم 224x224، حقق دقة Top-1 قدرها 84.1%)، مع تميّزه بقابلية توسيع أفضل في معالجة الصور عالية الدقة. تم إتاحة الكود المصدري والنماذج على الرابط التالي: https://github.com/NVIDIA/transformer-ls.