منذ 11 أيام

مُولِّد: إعادة التفكير في الانتباه الذاتي في نماذج المحولات

Yi Tay, Dara Bahri, Donald Metzler, Da-Cheng Juan, Zhe Zhao, Che Zheng

الملخص

يُعرف الانتباه القائم على الضرب النقطي بأنه جوهرى وغير قابل للإلغاء في نماذج الترانسفورمر الحديثة ذات الأداء العالي. ولكن هل هو فعلاً مطلوب؟ تبحث هذه الورقة في الأهمية الحقيقية والمساهمة الفعلية لآلية الانتباه القائمة على الضرب النقطي في أداء نماذج الترانسفورمر. من خلال تجارب واسعة النطاق، نجد أن (1) مصفوفات التوافق العشوائية تُظهر أداءً مُنافسًا بشكل مفاجئ، و(2) تعلُّم أوزان الانتباه من تفاعلات الرموز مع بعضها البعض (الاستعلام-المفتاح) مفيد، لكنه ليس بالدرجة التي تُفترض أحيانًا. وبهدف تحقيق ذلك، نقترح نموذجًا يُسمى \textsc{Synthesizer}، يتعلم أوزان الانتباه الاصطناعية دون الحاجة إلى تفاعلات الرموز مع بعضها. في تجاربنا، نُظهر أولًا أن نماذج Synthesizer البسيطة تحقق أداءً مُنافسًا للغاية عند مقارنتها بنماذج الترانسفورمر الأصلية عبر مجموعة متنوعة من المهام، بما في ذلك الترجمة الآلية، نمذجة اللغة، توليد النصوص، ومقاييس GLUE/SuperGLUE. وعند دمجها مع انتباه الضرب النقطي، نجد أن نماذج Synthesizer تتفوق باستمرار على نماذج الترانسفورمر. علاوة على ذلك، نُجري مقارنات إضافية بين نماذج Synthesizer وطرق التحويل الديناميكي (Dynamic Convolutions)، ونُظهر أن نموذج Synthesizer العشوائي البسيط ليس فقط أسرع بنسبة 60٪، بل يحسن أيضًا معامل الالتباس (perplexity) بنسبة نسبية تبلغ 3.5٪. وأخيرًا، نُثبت أن نماذج Synthesizer المُعاملة (factorized) البسيطة يمكنها التفوق على نموذج Linformer في المهام التي تقتصر على الترميز فقط.