HyperAIHyperAI
منذ 17 أيام

ميجا: انتباه مجهز بمتوسط متحرك مع مُعدّات تفتيح

Xuezhe Ma, Chunting Zhou, Xiang Kong, Junxian He, Liangke Gui, Graham Neubig, Jonathan May, Luke Zettlemoyer
ميجا: انتباه مجهز بمتوسط متحرك مع مُعدّات تفتيح
الملخص

تُحدِّد خيارات التصميم في آلية الانتباه الخاصة بـ Transformer، بما في ذلك الانحياز الاستدلالي الضعيف وتعقيد الحسابات التربيعي، من تطبيقاتها في نمذجة التسلسلات الطويلة. في هذه الورقة، نقدّم "Mega"، آلية انتباه مفردة ذات رأس مُدار (gated) بسيطة ومستندة إلى أسس نظرية، مزودة بمتوسط متحرك (أسي)، بهدف دمج الانحياز الاستدلالي للاعتماد المحلي المُدرك للوضع داخل آلية الانتباه غير المُدرك للوضع. وبالإضافة إلى ذلك، نقترح نسخة معدلة من Mega تُقدّم تعقيدًا زمنيًا ومساحيًا خطيًا مع فقدان جودة ضئيل جدًا، وذلك من خلال تقسيم التسلسل الكامل بكفاءة إلى عدة أجزاء (chunks) طولها ثابت. أظهرت تجارب واسعة النطاق على مجموعة متنوعة من معايير نمذجة التسلسلات، بما في ذلك Long Range Arena، والترجمة الآلية العصبية، ونمذجة اللغة التلقائية (auto-regressive language modeling)، وتصنيف الصور والصوت، أن Mega تحقق تحسينات كبيرة مقارنةً بغيرها من نماذج التسلسل، بما في ذلك أشكال مُختلفة من Transformers والنماذج المكانية الحديثة (state space models).

ميجا: انتباه مجهز بمتوسط متحرك مع مُعدّات تفتيح | أحدث الأوراق البحثية | HyperAI