HyperAIHyperAI

Command Palette

Search for a command to run...

استكشاف توسيع Transformers بكفاءة لملخصات الإدخال الطويلة

Jason Phang Yao Zhao Peter J. Liu

الملخص

بينما أثبتت النماذج الكبيرة المُدرَّبة مسبقًا من نوع Transformer كفاءة عالية في معالجة المهام المتعلقة باللغة الطبيعية، لا يزال التعامل مع المدخلات الطويلة التي تتكون من تسلسلات طويلة يمثل تحديًا كبيرًا. إحدى هذه المهام هي ملخص المدخلات الطويلة، حيث تكون المدخلات أطول من الحد الأقصى لسياق المدخلات في معظم النماذج المُدرَّبة مسبقًا. من خلال مجموعة واسعة من التجارب، نستكشف ما هي التغييرات المعمارية للنموذج وما هي نماذج التدريب المسبق التي يمكن أن تُعدِّل نموذج Transformer المُدرَّب مسبقًا بكفاءة عالية لمهام ملخص المدخلات الطويلة. ونجد أن نموذج Transformer ذو الترتيب المُتَقَدِّم (staggered) والمحلي على الكتل (block-local) مع وجود رموز ترميز عالمية في المُشفِّر يحقق توازنًا جيدًا بين الأداء والكفاءة، وأن مرحلة تدريب مسبق إضافية على تسلسلات طويلة تحسّن بشكل ملحوظ الأداء في المهام التالية لملخص المدخلات. استنادًا إلى هذه النتائج، نقدّم PEGASUS-X، وهو امتداد لنموذج PEGASUS يحتوي على تدريب مسبق إضافي على المدخلات الطويلة، قادر على معالجة المدخلات التي تصل إلى 16K رمزًا. ويحقق PEGASUS-X أداءً قويًا في مهام ملخص المدخلات الطويلة مقارنةً بنماذج أكبر بكثير، مع إضافة عدد قليل جدًا من المعاملات الإضافية، ولا يتطلب نموذج التوازي (model parallelism) أثناء التدريب.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
استكشاف توسيع Transformers بكفاءة لملخصات الإدخال الطويلة | مستندات | HyperAI