منذ شهر واحد

تعزيز الانتباه الذاتي بالذاكرة الثابتة

Sainbayar Sukhbaatar; Edouard Grave; Guillaume Lample; Herve Jegou; Armand Joulin

الملخص

لقد أدت شبكات الـ Transformer إلى تقدم مهم في نمذجة اللغة وترجمة الآلة. تتضمن هذه النماذج وحدتين متتاليتين، وهما طبقة التغذية الأمامية (feed-forward layer) وطبقة الانتباه الذاتي (self-attention layer). تسمح الطبقة الثانية للشبكة باستدراك الارتباطات طويلة المدى، وغالبًا ما تعتبر العنصر الرئيسي في نجاح Transformers. انطلاقًا من هذا الفهم، نقترح نموذجًا جديدًا يتكون حصريًا من طبقات الانتباه. بدقة أكبر، نضيف إلى طبقات الانتباه الذاتي متجهات ذاكرة ثابتة (persistent memory vectors) التي تؤدي دورًا مشابهًا لطبقة التغذية الأمامية. بفضل هذه المتجهات، يمكننا إزالة طبقة التغذية الأمامية دون التأثير سلبًا على أداء الشبكة الـ Transformer. تقييمنا يظهر الفوائد التي يجلبها نموذجنا في مقاييس النمذجة اللغوية القياسية على مستوى الحروف والكلمات.