HyperAIHyperAI
منذ 9 أيام

ETC: ترميز المدخلات الطويلة والمنظمة في المحولات

Joshua Ainslie, Santiago Ontanon, Chris Alberti, Vaclav Cvicek, Zachary Fisher, Philip Pham, Anirudh Ravula, Sumit Sanghai, Qifan Wang, Li Yang
ETC: ترميز المدخلات الطويلة والمنظمة في المحولات
الملخص

لقد حققت نماذج الترانسفورمر تقدماً كبيراً في تطوير الحالة الراهنة لمهام معالجة اللغة الطبيعية (NLP). في هذه الورقة، نقدم بنية جديدة لنموذج الترانسفورمر تُسمى "بناء الترانسفورمر الممتد" (ETC)، والتي تُعالج تحديين رئيسيين يواجههما النماذج القياسية لـ Transformer، وهما: التوسع في طول المدخلات وتمثيل المدخلات المنظمة. ولتمكين الانتباه من التوسع لمعالجة مدخلات أطول، نُقدّم آلية انتباه جديدة تُعرف بـ "الانتباه العالمي-المحلي" بين الرموز العالمية والرموز العادية للمدخلات. كما نُظهر أن دمج انتباه العالمي-المحلي مع ترميزات الموضع النسبي ووظيفة تدريب مسبق تُعرف بـ "الترميز التنبؤي التبايني" (CPC) يُمكّن نموذج ETC من تمثيل المدخلات المنظمة. وقد تحقق أداءً من الطراز الريادي في أربع مجموعات بيانات لغوية طبيعية تتطلب مدخلات طويلة و/أو منظمة.

ETC: ترميز المدخلات الطويلة والمنظمة في المحولات | أحدث الأوراق البحثية | HyperAI