Fourier Transformer: نمذجة طويلة المدى سريعة من خلال إزالة التكرار التسلسلي باستخدام مؤشر التحويل التوافقي السريع

يُعرف نموذج المحول (Transformer) بأنه يتطلب حسابات مكثفة، ويكون مكلفًا بشكل مفرط بالنسبة للتسلسلات الطويلة، نظرًا لاستخدام وحدة الانتباه الذاتي (self-attention) التي تتطلب تعقيدًا زمنيًا وفضائيًا تربيعيًا بالنسبة لطول التسلسل. وقد ركز العديد من الباحثين على تصميم أشكال جديدة لوحدة الانتباه الذاتي أو إدخال معلمات جديدة للتغلب على هذه القيود، إلا أن جزءًا كبيرًا من هذه الطرق يمنع النموذج من استرداد الأوزان من النماذج المُدرّبة مسبقًا الكبيرة. في هذا العمل، تم معالجة عدم كفاءة المحول من منظور مختلف. نقترح نموذج "المُحول التوافقي" (Fourier Transformer)، وهو نهج بسيط وفعال يتم من خلاله التخلص التدريجي من التكرارات في التسلسل المخفي باستخدام عامل التحويل السريع للفورييه (FFT) الجاهز، وذلك لأداء تحويل جيب التمام المنفصل (DCT). يُمكن لنموذج "المُحول التوافقي" تقليل التكاليف الحسابية بشكل كبير مع الحفاظ على القدرة على استرداد الأوزان من مختلف النماذج المُدرّبة مسبقًا الكبيرة. تُظهر التجارب أن نموذجنا يحقق أداءً منافسًا لأفضل النماذج القائمة على المحول في معيار النمذجة الطويلة المدى (LRA)، مع تحسين ملحوظ في السرعة والمساحة. وبالنسبة للمهام التوليدية من نوع التسلسل إلى التسلسل، بما في ذلك مجموعتي بيانات CNN/DailyMail وELI5، فإن النموذج الذي يستخدم أوزان BART المُدرّبة مسبقًا يتفوق على نموذج BART القياسي ونماذج الكفاءة الأخرى. تم إتاحة الكود الخاص بنا بشكل عام على الرابط التالي: https://github.com/LUMIA-Group/FourierTransformer