منذ 9 أيام

Cluster-Former: تحويلة نادرة تعتمد على التجميع لترميز الاعتماد الطويل المدى

Shuohang Wang, Luowei Zhou, Zhe Gan, Yen-Chun Chen, Yuwei Fang, Siqi Sun, Yu Cheng, Jingjing Liu

الملخص

أصبحت نموذج Transformer شائعةً على نطاق واسع في مجال التعلم العميق. أحد العناصر الأساسية التي ساهمت في نجاحه هو آلية الانتباه الذاتي، التي تتيح ترميزًا سياقيًا متكاملًا بين الرموز المدخلة. ومع ذلك، وعلى الرغم من فعاليتها في نمذجة التسلسلات القصيرة، فإن الانتباه الذاتي يعاني من ضعف الأداء عند التعامل مع المدخلات التي تتميز بعلاقات بعيدة المدى شديدة، نظرًا لنمو تعقيدها بشكل تربيعي بالنسبة لطول التسلسل. لذلك، غالبًا ما يتم ترميز التسلسلات الطويلة باستخدام نموذج Transformer من خلال تقسيمها إلى كتل باستخدام نافذة منزلقة. في هذه الورقة، نقترح نموذج Cluster-Former، وهو نموذج جديد لـ Transformer نادر التماسك يعتمد على التجميع، والذي يُطبّق الانتباه عبر التسلسلات المقسمة إلى كتل. يعتمد الإطار المقترح على نوعين فريدَين من طبقات Transformer: طبقة النافذة المنزلقة وطبقة Cluster-Former، اللتان تقومان بتشفير المعلومات التسلسلية المحلية والاتساق العام معًا بشكل تكراري وتآزري. يتيح هذا التصميم الجديد دمج المعلومات خارج النافذة المحلية، وهو ما يُعد مفيدًا بشكل خاص للمهام المتعلقة بالإجابة على الأسئلة (QA) التي تعتمد على علاقات بعيدة المدى. أظهرت التجارب أن Cluster-Former يحقق أداءً متفوقًا على مستوى الحد الأقصى (state-of-the-art) في عدة معايير رئيسية لمهام الإجابة على الأسئلة.