HyperAIHyperAI

Command Palette

Search for a command to run...

LongT5: نموذج نص إلى نص فعّال من نوع Transformer للسلاسل الطويلة

Mandy Guo Joshua Ainslie David Uthus Santiago Ontanon Jianmo Ni Yun-Hsuan Sung Yinfei Yang

الملخص

أظهرت الدراسات الحديثة أن إما (1) زيادة طول المدخلات أو (2) زيادة حجم النموذج يمكن أن يؤديان إلى تحسين أداء النماذج العصبية المستندة إلى الترانسفورمر. في هذه الورقة، نقدّم نموذجًا جديدًا يُسمّى LongT5، نستخدمه لاستكشاف تأثير التوسيع في كلا من طول المدخلات وحجم النموذج في آنٍ واحد. بشكل خاص، قمنا بدمج أفكار الانتباه من النماذج الترانسفورمرية التي تتعامل مع المدخلات الطويلة (ETC)، واتّخذنا استراتيجيات التدريب المسبق من تدريب تلخيص النصوص (PEGASUS) ودمجناها في بنية T5 القابلة للتوسيع. النتيجة هي آلية انتباه جديدة نسميها {\em Transient Global} (TGlobal)، التي تقلّد آلية الانتباه المحلية/الشاملة في ETC، ولكن دون الحاجة إلى مدخلات جانبية إضافية. وقد تمكّنا من تحقيق نتائج رائدة في مجالات متعددة من مهام التلخيص، كما تفوقنا على النماذج الأصلية من T5 في مهام الإجابة عن الأسئلة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp