المتحولات النادرة التكيفية

لقد أصبحت آليات الانتباه (attention mechanisms) شائعة في معالجة اللغة الطبيعية (NLP). وفي الأطر المعمارية الحديثة، مثل نموذج التحويل (Transformer)، يتم تعلم تمثيلات كلمات قوية ومرتبطة بالسياق من خلال طبقات متعددة من الانتباه ذي الرؤوس المتعددة. تتعلم هذه الرؤوس المتعددة أنواعًا متنوعة من علاقات الكلمات. ومع ذلك، فإن جميع رؤوس الانتباه تكون كثيفة عند استخدام انتباه softmax التقليدي، حيث تقوم بتعيين وزن غير صفري لكل الكلمات السياقية.في هذا البحث، نقدم نموذج التحويل ذو الانتباه النادر بشكل متكيف (adaptively sparse Transformer)، حيث يمكن لرؤوس الانتباه أن تكون ذات أنماط ندرة مرنة ومتوقفة على السياق. يتم تحقيق هذه الندرة من خلال استبدال softmax بـ $α$-entmax: وهي تعميم قابل للتفاضل لـ softmax يسمح للكلمات التي تحصل على درجات منخفضة بتلقي وزن صفر تمامًا. بالإضافة إلى ذلك، نشتق طريقة لتعلم معلمة $α$ تلقائيًا -- والتي تتحكم في شكل وندرة $α$-entmax -- مما يتيح لرؤوس الانتباه اختيار السلوك المركّز أو المنتشر.يحسن نموذج التحويل ذو الانتباه النادر بشكل متكيف القابلية للتفسير والتنوع بين الرؤوس مقارنة بنماذج التحويل التي تعتمد على softmax عند استخدامها في مجموعات بيانات الترجمة الآلية. وقد أظهرت نتائج التحليل الكمي والنوعي لنهجنا أن الرؤوس في الطبقات المختلفة تتعلم تفضيلات مختلفة للندرة وتكون أكثر تنوعًا في توزيعاتها للانتباه مقارنة بنماذج التحويل التي تعتمد على softmax. علاوة على ذلك، وبلا أي خسارة في الدقة، فإن الندرة في رؤوس الانتباه تسهم في كشف الاختصاصات المختلفة لهذه الرؤوس.