HyperAIHyperAI

Command Palette

Search for a command to run...

ETC: ترميز المدخلات الطويلة والمنظمة في المحولات

Joshua Ainslie Santiago Ontanon Chris Alberti Vaclav Cvicek Zachary Fisher Philip Pham Anirudh Ravula Sumit Sanghai Qifan Wang Li Yang

الملخص

لقد حققت نماذج الترانسفورمر تقدماً كبيراً في تطوير الحالة الراهنة لمهام معالجة اللغة الطبيعية (NLP). في هذه الورقة، نقدم بنية جديدة لنموذج الترانسفورمر تُسمى "بناء الترانسفورمر الممتد" (ETC)، والتي تُعالج تحديين رئيسيين يواجههما النماذج القياسية لـ Transformer، وهما: التوسع في طول المدخلات وتمثيل المدخلات المنظمة. ولتمكين الانتباه من التوسع لمعالجة مدخلات أطول، نُقدّم آلية انتباه جديدة تُعرف بـ "الانتباه العالمي-المحلي" بين الرموز العالمية والرموز العادية للمدخلات. كما نُظهر أن دمج انتباه العالمي-المحلي مع ترميزات الموضع النسبي ووظيفة تدريب مسبق تُعرف بـ "الترميز التنبؤي التبايني" (CPC) يُمكّن نموذج ETC من تمثيل المدخلات المنظمة. وقد تحقق أداءً من الطراز الريادي في أربع مجموعات بيانات لغوية طبيعية تتطلب مدخلات طويلة و/أو منظمة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
ETC: ترميز المدخلات الطويلة والمنظمة في المحولات | مستندات | HyperAI