HyperAIHyperAI

Command Palette

Search for a command to run...

CoLT5: تحويلات طويلة المدى أسرع باستخدام حساب مشروط

الملخص

تستفيد العديد من مهام معالجة اللغة الطبيعية من المدخلات الطويلة، لكن معالجة المستندات الطويلة باستخدام نماذج التحويل (Transformers) يكون مكلفًا – ليس فقط بسبب التعقيد التربيعي في الانتباه (attention)، بل أيضًا بسبب تطبيق طبقات التغذية الأمامية (feedforward) وطبقات التحويل (projection) على كل رمز (token). ومع ذلك، ليست جميع الرموز متساوية الأهمية، خاصة في المستندات الطويلة. نقترح نموذج CoLT5، وهو نموذج تحويل مُخصص للمدخلات الطويلة، يعتمد على هذه الفكرة من خلال استخدام الحساب الشرطي (conditional computation)، بحيث يخصص موارد إضافية للرموز الأكثر أهمية في كل من طبقات التغذية الأمامية والانتباه. ونُظهر أن CoLT5 يحقق أداءً أفضل من LongT5 بسرعة تدريب واستنتاج أسرع بكثير، ويحقق أفضل الأداء (SOTA) في معيار SCROLLS للمدخلات الطويلة. علاوة على ذلك، يمكن لـ CoLT5 الاستفادة بفعالية وقابلية للتحكم من مدخلات طويلة جدًا، مع تحقيق مكاسب كبيرة حتى عند طول إدخال يصل إلى 64 ألف رمز.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp