HyperAIHyperAI
منذ 16 أيام

CoLT5: تحويلات طويلة المدى أسرع باستخدام حساب مشروط

Joshua Ainslie, Tao Lei, Michiel de Jong, Santiago Ontañón, Siddhartha Brahma, Yury Zemlyanskiy, David Uthus, Mandy Guo, James Lee-Thorp, Yi Tay, Yun-Hsuan Sung, Sumit Sanghai
CoLT5: تحويلات طويلة المدى أسرع باستخدام حساب مشروط
الملخص

تستفيد العديد من مهام معالجة اللغة الطبيعية من المدخلات الطويلة، لكن معالجة المستندات الطويلة باستخدام نماذج التحويل (Transformers) يكون مكلفًا – ليس فقط بسبب التعقيد التربيعي في الانتباه (attention)، بل أيضًا بسبب تطبيق طبقات التغذية الأمامية (feedforward) وطبقات التحويل (projection) على كل رمز (token). ومع ذلك، ليست جميع الرموز متساوية الأهمية، خاصة في المستندات الطويلة. نقترح نموذج CoLT5، وهو نموذج تحويل مُخصص للمدخلات الطويلة، يعتمد على هذه الفكرة من خلال استخدام الحساب الشرطي (conditional computation)، بحيث يخصص موارد إضافية للرموز الأكثر أهمية في كل من طبقات التغذية الأمامية والانتباه. ونُظهر أن CoLT5 يحقق أداءً أفضل من LongT5 بسرعة تدريب واستنتاج أسرع بكثير، ويحقق أفضل الأداء (SOTA) في معيار SCROLLS للمدخلات الطويلة. علاوة على ذلك، يمكن لـ CoLT5 الاستفادة بفعالية وقابلية للتحكم من مدخلات طويلة جدًا، مع تحقيق مكاسب كبيرة حتى عند طول إدخال يصل إلى 64 ألف رمز.

CoLT5: تحويلات طويلة المدى أسرع باستخدام حساب مشروط | أحدث الأوراق البحثية | HyperAI