HyperAIHyperAI

Command Palette

Search for a command to run...

Cluster-Former: تحويلة نادرة تعتمد على التجميع لترميز الاعتماد الطويل المدى

Shuohang Wang Luowei Zhou Zhe Gan Yen-Chun Chen Yuwei Fang Siqi Sun Yu Cheng Jingjing Liu

الملخص

أصبحت نموذج Transformer شائعةً على نطاق واسع في مجال التعلم العميق. أحد العناصر الأساسية التي ساهمت في نجاحه هو آلية الانتباه الذاتي، التي تتيح ترميزًا سياقيًا متكاملًا بين الرموز المدخلة. ومع ذلك، وعلى الرغم من فعاليتها في نمذجة التسلسلات القصيرة، فإن الانتباه الذاتي يعاني من ضعف الأداء عند التعامل مع المدخلات التي تتميز بعلاقات بعيدة المدى شديدة، نظرًا لنمو تعقيدها بشكل تربيعي بالنسبة لطول التسلسل. لذلك، غالبًا ما يتم ترميز التسلسلات الطويلة باستخدام نموذج Transformer من خلال تقسيمها إلى كتل باستخدام نافذة منزلقة. في هذه الورقة، نقترح نموذج Cluster-Former، وهو نموذج جديد لـ Transformer نادر التماسك يعتمد على التجميع، والذي يُطبّق الانتباه عبر التسلسلات المقسمة إلى كتل. يعتمد الإطار المقترح على نوعين فريدَين من طبقات Transformer: طبقة النافذة المنزلقة وطبقة Cluster-Former، اللتان تقومان بتشفير المعلومات التسلسلية المحلية والاتساق العام معًا بشكل تكراري وتآزري. يتيح هذا التصميم الجديد دمج المعلومات خارج النافذة المحلية، وهو ما يُعد مفيدًا بشكل خاص للمهام المتعلقة بالإجابة على الأسئلة (QA) التي تعتمد على علاقات بعيدة المدى. أظهرت التجارب أن Cluster-Former يحقق أداءً متفوقًا على مستوى الحد الأقصى (state-of-the-art) في عدة معايير رئيسية لمهام الإجابة على الأسئلة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp