HyperAIHyperAI
منذ 11 أيام

Transformer متقطع متكرر: نموذج تسلسلي فعّال من التسلسل إلى التسلسل

Yinghan Long, Sayeed Shafayet Chowdhury, Kaushik Roy
Transformer متقطع متكرر: نموذج تسلسلي فعّال من التسلسل إلى التسلسل
الملخص

أظهرت نماذج الترانسفورمر أداءً متفوقًا في مجموعة واسعة من المجالات، بما في ذلك اللغة والرؤية الحاسوبية. ومع ذلك، فإن التكلفة الحسابية لهذه النماذج تزداد بشكل تربيعي بالنسبة لطول التسلسل، مما يجعل استخدامها غير عملي في التطبيقات ذات الموارد المحدودة. لمواجهة هذه المشكلة، نعتمد نهجًا يُقسّم التسلسل الكامل إلى أجزاء، ثم يُطبّق الانتباه على كل جزء بشكل منفصل. نقترح نموذجًا جديدًا يُسمى "الترانسفورمر المتسلسل المقسم" (SRformer)، والذي يدمج بين الانتباه المقسم (المحلي) والانتباه المتسلسل. ويُعوّض التدهور الناتج عن تقليل طول نافذة الانتباه من خلال تجميع المعلومات عبر الأجزاء باستخدام الانتباه المتسلسل. ويستفيد SRformer من الذاكرة الطبيعية لخلايا "جمع وتفعيل متسلسلة" (RAF) لتحديث الناتج التراكمي للقيم المفتاحية (keys) والقيم (values). كما تضمن الانتباه المقسم والخلايا الخفيفة الوزن من نوع RAF كفاءة النموذج المُقترح. يؤدي هذا النهج إلى نماذج تمتلك قدرة معالجة تسلسلية بتكلفة حسابية وذاكرة أقل. وتم تطبيق الطريقة المقترحة على نماذج T5 وBART. وقد تم اختبار النماذج المعدلة على مجموعات بيانات تلخيص تشمل CNN-DailyMail وXSUM وArXiv وMediaSUM. وبشكل ملحوظ، باستخدام مدخلات مقسمة بأحجام مختلفة، حقق النموذج المقترح نقاط ROUGE1 أعلى بنسبة 6-22% مقارنة بنموذج ترانسفورمر مقسم، كما تفوق على الطرق الأخرى للترانسفورمر المتسلسلة. علاوةً على ذلك، مقارنة بالانتباه الكامل، قلّل النموذج المقترح من التعقيد الحسابي للانتباه المتقاطع بنسبة تقارب 40%.

Transformer متقطع متكرر: نموذج تسلسلي فعّال من التسلسل إلى التسلسل | أحدث الأوراق البحثية | HyperAI