منذ 2 أشهر

الانتباه المريح لنموذج الترانسفورمر

Lohrenz, Timo ; Möller, Björn ; Li, Zhengyang ; Fingscheidt, Tim

الملخص

قدرات النمذجة القوية للهياكل المعتمدة بالكامل على الانتباه (الترانسفورمر) غالبًا ما تؤدي إلى التكيف الزائد، وللمهام المعنية معالجة اللغة الطبيعية، فإنها تقود إلى تعلم نموذج لغة داخلي ضمني في مفكّك الترانسفورمر الذاتي، مما يعقد عملية دمج النماذج اللغوية الخارجية. في هذا البحث، نستكشف الانتباه المرن، وهو تسوية بسيطة وسهلة التنفيذ للأوزان الانتباهية، مما يؤدي إلى تحسين ثنائي للهياكل العامة للترانسفورمر: أولاً، يوفر الانتباه المرن تنظيمًا عند تطبيقه على طبقات الانتباه الذاتي في المُشفر (الإنكودر). ثانيًا، نوضح أنه يدعم بشكل طبيعي دمج نموذج لغة خارجي حيث أنه يقلل من النموذج اللغوي الداخلي الذي تم تعلمه ضمنيًا من خلال تخفيف الانتباه العابر في المُفكّك (الديكودر). نبين فوائد الانتباه المرن عبر عدة مهام مع وجود تحسن واضح عند استخدامه مع الأساليب الحالية للمعايير. وبشكل خاص، نتفوق على الأداء السابق لأفضل التقنيات بنسبة خطأ الكلمات 26.90% في معيار القراءة الشفوية العام LRS3 الأكبر علنًا بتحقيق نسبة خطأ الكلمات 26.31%. كما حققنا أعلى درجة BLEU وهي 37.67 في مهمة الترجمة الآلية IWSLT14 (DE$\rightarrow$EN) دون استخدام نماذج لغة خارجية وفي ظل عدم إضافة أي معلمات تقريبًا للنموذج. سيتم جعل الكود والنماذج متاحين للعامة.