HyperAIHyperAI
منذ 13 أيام

FNet: مزج الرموز باستخدام التحويلات التوافقية

James Lee-Thorp, Joshua Ainslie, Ilya Eckstein, Santiago Ontanon
FNet: مزج الرموز باستخدام التحويلات التوافقية
الملخص

نُظهر أن أطر مُعمّرات Transformer Encoder يمكن تسريعها، مع تكلفة دقة محدودة، من خلال استبدال طبقات الانتباه الذاتي (self-attention) بتحويلات خطية بسيطة تقوم بـ"خلط" الرموز المدخلة (input tokens). تُثبت هذه المُحَوِّلات الخطية، جنبًا إلى جنب مع التحويلات غير الخطية القياسية في طبقات التغذية الأمامية (feed-forward)، كفاءتها في نمذجة العلاقات الدلالية في عدة مهام تصنيف النصوص. والأكثر إدهاشًا، نجد أن استبدال طبقة الانتباه الذاتي في مُعمّر Transformer Encoder بتحويل فورييه قياسي غير مُعامَل (unparameterized Fourier Transform) يحقق 92-97% من دقة نماذج BERT على معيار GLUE، مع تسريع في التدريب بنسبة 80% على وحدات معالجة الرسوميات (GPUs) وبنسبة 70% على وحدات معالجة مخصصة للذكاء الاصطناعي (TPUs) عند طول إدخال قياسي قدره 512 رمزًا. وعند طول إدخال أطول، تصبح نموذج FNet أسرع بشكل ملحوظ: مقارنةً بنماذج Transformer "الفعّالة" على معيار Long Range Arena، يُحقق FNet نفس دقة النماذج الأكثر دقة، بينما يتفوق على أسرع النماذج في جميع طوليات التسلسل على GPUs (وأطول الطوليات المعقولة على TPUs). وأخيرًا، يتميز نموذج FNet بحجم ذاكرة منخفض جدًا، ويُعدّ خيارًا مثاليًا عند استخدام نماذج صغيرة الحجم؛ فعند تحديد حد أقصى لسرعة الأداء ودقة معينة، تُتفوّق النماذج الصغيرة من FNet على نماذج Transformer المماثلة.

FNet: مزج الرموز باستخدام التحويلات التوافقية | أحدث الأوراق البحثية | HyperAI