HyperAIHyperAI

Command Palette

Search for a command to run...

تعزيز الانتباه الذاتي بالذاكرة الثابتة

Sainbayar Sukhbaatar Edouard Grave Guillaume Lample Herve Jegou Armand Joulin

الملخص

لقد أدت شبكات الـ Transformer إلى تقدم مهم في نمذجة اللغة وترجمة الآلة. تتضمن هذه النماذج وحدتين متتاليتين، وهما طبقة التغذية الأمامية (feed-forward layer) وطبقة الانتباه الذاتي (self-attention layer). تسمح الطبقة الثانية للشبكة باستدراك الارتباطات طويلة المدى، وغالبًا ما تعتبر العنصر الرئيسي في نجاح Transformers. انطلاقًا من هذا الفهم، نقترح نموذجًا جديدًا يتكون حصريًا من طبقات الانتباه. بدقة أكبر، نضيف إلى طبقات الانتباه الذاتي متجهات ذاكرة ثابتة (persistent memory vectors) التي تؤدي دورًا مشابهًا لطبقة التغذية الأمامية. بفضل هذه المتجهات، يمكننا إزالة طبقة التغذية الأمامية دون التأثير سلبًا على أداء الشبكة الـ Transformer. تقييمنا يظهر الفوائد التي يجلبها نموذجنا في مقاييس النمذجة اللغوية القياسية على مستوى الحروف والكلمات.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp