HyperAIHyperAI

Command Palette

Search for a command to run...

ميجا: انتباه مجهز بمتوسط متحرك مع مُعدّات تفتيح

Xuezhe Ma Chunting Zhou Xiang Kong Junxian He Liangke Gui Graham Neubig Jonathan May Luke Zettlemoyer

الملخص

تُحدِّد خيارات التصميم في آلية الانتباه الخاصة بـ Transformer، بما في ذلك الانحياز الاستدلالي الضعيف وتعقيد الحسابات التربيعي، من تطبيقاتها في نمذجة التسلسلات الطويلة. في هذه الورقة، نقدّم "Mega"، آلية انتباه مفردة ذات رأس مُدار (gated) بسيطة ومستندة إلى أسس نظرية، مزودة بمتوسط متحرك (أسي)، بهدف دمج الانحياز الاستدلالي للاعتماد المحلي المُدرك للوضع داخل آلية الانتباه غير المُدرك للوضع. وبالإضافة إلى ذلك، نقترح نسخة معدلة من Mega تُقدّم تعقيدًا زمنيًا ومساحيًا خطيًا مع فقدان جودة ضئيل جدًا، وذلك من خلال تقسيم التسلسل الكامل بكفاءة إلى عدة أجزاء (chunks) طولها ثابت. أظهرت تجارب واسعة النطاق على مجموعة متنوعة من معايير نمذجة التسلسلات، بما في ذلك Long Range Arena، والترجمة الآلية العصبية، ونمذجة اللغة التلقائية (auto-regressive language modeling)، وتصنيف الصور والصوت، أن Mega تحقق تحسينات كبيرة مقارنةً بغيرها من نماذج التسلسل، بما في ذلك أشكال مُختلفة من Transformers والنماذج المكانية الحديثة (state space models).


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp