HyperAIHyperAI

Command Palette

Search for a command to run...

مُولِّد: إعادة التفكير في الانتباه الذاتي في نماذج المحولات

Yi Tay Dara Bahri Donald Metzler Da-Cheng Juan Zhe Zhao Che Zheng

الملخص

يُعرف الانتباه القائم على الضرب النقطي بأنه جوهرى وغير قابل للإلغاء في نماذج الترانسفورمر الحديثة ذات الأداء العالي. ولكن هل هو فعلاً مطلوب؟ تبحث هذه الورقة في الأهمية الحقيقية والمساهمة الفعلية لآلية الانتباه القائمة على الضرب النقطي في أداء نماذج الترانسفورمر. من خلال تجارب واسعة النطاق، نجد أن (1) مصفوفات التوافق العشوائية تُظهر أداءً مُنافسًا بشكل مفاجئ، و(2) تعلُّم أوزان الانتباه من تفاعلات الرموز مع بعضها البعض (الاستعلام-المفتاح) مفيد، لكنه ليس بالدرجة التي تُفترض أحيانًا. وبهدف تحقيق ذلك، نقترح نموذجًا يُسمى \textsc{Synthesizer}، يتعلم أوزان الانتباه الاصطناعية دون الحاجة إلى تفاعلات الرموز مع بعضها. في تجاربنا، نُظهر أولًا أن نماذج Synthesizer البسيطة تحقق أداءً مُنافسًا للغاية عند مقارنتها بنماذج الترانسفورمر الأصلية عبر مجموعة متنوعة من المهام، بما في ذلك الترجمة الآلية، نمذجة اللغة، توليد النصوص، ومقاييس GLUE/SuperGLUE. وعند دمجها مع انتباه الضرب النقطي، نجد أن نماذج Synthesizer تتفوق باستمرار على نماذج الترانسفورمر. علاوة على ذلك، نُجري مقارنات إضافية بين نماذج Synthesizer وطرق التحويل الديناميكي (Dynamic Convolutions)، ونُظهر أن نموذج Synthesizer العشوائي البسيط ليس فقط أسرع بنسبة 60٪، بل يحسن أيضًا معامل الالتباس (perplexity) بنسبة نسبية تبلغ 3.5٪. وأخيرًا، نُثبت أن نماذج Synthesizer المُعاملة (factorized) البسيطة يمكنها التفوق على نموذج Linformer في المهام التي تقتصر على الترميز فقط.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp