HyperAIHyperAI
منذ 11 أيام

استكشاف توسيع Transformers بكفاءة لملخصات الإدخال الطويلة

Jason Phang, Yao Zhao, Peter J. Liu
استكشاف توسيع Transformers بكفاءة لملخصات الإدخال الطويلة
الملخص

بينما أثبتت النماذج الكبيرة المُدرَّبة مسبقًا من نوع Transformer كفاءة عالية في معالجة المهام المتعلقة باللغة الطبيعية، لا يزال التعامل مع المدخلات الطويلة التي تتكون من تسلسلات طويلة يمثل تحديًا كبيرًا. إحدى هذه المهام هي ملخص المدخلات الطويلة، حيث تكون المدخلات أطول من الحد الأقصى لسياق المدخلات في معظم النماذج المُدرَّبة مسبقًا. من خلال مجموعة واسعة من التجارب، نستكشف ما هي التغييرات المعمارية للنموذج وما هي نماذج التدريب المسبق التي يمكن أن تُعدِّل نموذج Transformer المُدرَّب مسبقًا بكفاءة عالية لمهام ملخص المدخلات الطويلة. ونجد أن نموذج Transformer ذو الترتيب المُتَقَدِّم (staggered) والمحلي على الكتل (block-local) مع وجود رموز ترميز عالمية في المُشفِّر يحقق توازنًا جيدًا بين الأداء والكفاءة، وأن مرحلة تدريب مسبق إضافية على تسلسلات طويلة تحسّن بشكل ملحوظ الأداء في المهام التالية لملخص المدخلات. استنادًا إلى هذه النتائج، نقدّم PEGASUS-X، وهو امتداد لنموذج PEGASUS يحتوي على تدريب مسبق إضافي على المدخلات الطويلة، قادر على معالجة المدخلات التي تصل إلى 16K رمزًا. ويحقق PEGASUS-X أداءً قويًا في مهام ملخص المدخلات الطويلة مقارنةً بنماذج أكبر بكثير، مع إضافة عدد قليل جدًا من المعاملات الإضافية، ولا يتطلب نموذج التوازي (model parallelism) أثناء التدريب.

استكشاف توسيع Transformers بكفاءة لملخصات الإدخال الطويلة | أحدث الأوراق البحثية | HyperAI