HyperAIHyperAI

Command Palette

Search for a command to run...

الانتباه المريح لنموذج الترانسفورمر

Timo Lohrenz Björn Möller Zhengyang Li Tim Fingscheidt

الملخص

قدرات النمذجة القوية للهياكل المعتمدة بالكامل على الانتباه (الترانسفورمر) غالبًا ما تؤدي إلى التكيف الزائد، وللمهام المعنية معالجة اللغة الطبيعية، فإنها تقود إلى تعلم نموذج لغة داخلي ضمني في مفكّك الترانسفورمر الذاتي، مما يعقد عملية دمج النماذج اللغوية الخارجية. في هذا البحث، نستكشف الانتباه المرن، وهو تسوية بسيطة وسهلة التنفيذ للأوزان الانتباهية، مما يؤدي إلى تحسين ثنائي للهياكل العامة للترانسفورمر: أولاً، يوفر الانتباه المرن تنظيمًا عند تطبيقه على طبقات الانتباه الذاتي في المُشفر (الإنكودر). ثانيًا، نوضح أنه يدعم بشكل طبيعي دمج نموذج لغة خارجي حيث أنه يقلل من النموذج اللغوي الداخلي الذي تم تعلمه ضمنيًا من خلال تخفيف الانتباه العابر في المُفكّك (الديكودر). نبين فوائد الانتباه المرن عبر عدة مهام مع وجود تحسن واضح عند استخدامه مع الأساليب الحالية للمعايير. وبشكل خاص، نتفوق على الأداء السابق لأفضل التقنيات بنسبة خطأ الكلمات 26.90% في معيار القراءة الشفوية العام LRS3 الأكبر علنًا بتحقيق نسبة خطأ الكلمات 26.31%. كما حققنا أعلى درجة BLEU وهي 37.67 في مهمة الترجمة الآلية IWSLT14 (DE\rightarrowEN) دون استخدام نماذج لغة خارجية وفي ظل عدم إضافة أي معلمات تقريبًا للنموذج. سيتم جعل الكود والنماذج متاحين للعامة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
الانتباه المريح لنموذج الترانسفورمر | مستندات | HyperAI