cosFormer: إعادة التفكير في Softmax في الانتباه

أظهرت نماذج الترانسفورمر نجاحات كبيرة في معالجة اللغة الطبيعية، ورؤية الحاسوب، ومعالجة الصوت. وكمكون أساسي من مكوناتها، يساعد الانتباه المُعدّل بـ softmax على اكتشاف الاعتماديات الطويلة المدى، لكنه يمنع التوسع في الحجم نظرًا لتعقيده الرباعي من حيث المساحة والزمن بالنسبة لطول التسلسل. تُستخدم غالبًا طرق النوى لتقليل التعقيد من خلال تقريب عملية softmax. ومع ذلك، نظرًا لأخطاء التقريب، تختلف أداء هذه الطرق في المهام أو المجموعات المختلفة، وتميل إلى الانخفاض الحاد في الأداء عند مقارنتها بـ softmax القياسي. في هذا البحث، نقترح نموذجًا خطيًا للترانسفورمر يُدعى cosFormer، والذي يمكنه تحقيق دقة مماثلة أو أفضل من نموذج الترانسفورمر القياسي في كل من الانتباه غير المُنظم والانتباه المتقاطع. يعتمد cosFormer على خاصيتين رئيسيتين لعملية الانتباه المُعدّلة بـ softmax: أولاً، عدم سلبية مصفوفة الانتباه؛ وثانيًا، خطة إعادة وزن غير خطية يمكنها تجميع توزيع مصفوفة الانتباه. وبما أنه يُعد بديلًا خطيًا، يحقق cosFormer هاتين الخاصيتين من خلال عملية خطية وآلية إعادة وزن تعتمد على المسافة الكوسينية. أظهرت التجارب الواسعة على مهام نمذجة اللغة وفهم النص فعالية طريقتنا. كما قمنا بفحص طريقتنا على التسلسلات الطويلة، وحققنا أداءً متفوقًا على معيار Long-Range Arena. يمكن الوصول إلى الكود المصدري عبر الرابط: https://github.com/OpenNLPLab/cosFormer.