HyperAIHyperAI

Command Palette

Search for a command to run...

cosFormer: إعادة التفكير في Softmax في الانتباه

Zhen Qin Weixuan Sun Hui Deng Dongxu Li Yunshen Wei Baohong Lv Junjie Yan Lingpeng Kong Yiran Zhong

الملخص

أظهرت نماذج الترانسفورمر نجاحات كبيرة في معالجة اللغة الطبيعية، ورؤية الحاسوب، ومعالجة الصوت. وكمكون أساسي من مكوناتها، يساعد الانتباه المُعدّل بـ softmax على اكتشاف الاعتماديات الطويلة المدى، لكنه يمنع التوسع في الحجم نظرًا لتعقيده الرباعي من حيث المساحة والزمن بالنسبة لطول التسلسل. تُستخدم غالبًا طرق النوى لتقليل التعقيد من خلال تقريب عملية softmax. ومع ذلك، نظرًا لأخطاء التقريب، تختلف أداء هذه الطرق في المهام أو المجموعات المختلفة، وتميل إلى الانخفاض الحاد في الأداء عند مقارنتها بـ softmax القياسي. في هذا البحث، نقترح نموذجًا خطيًا للترانسفورمر يُدعى cosFormer، والذي يمكنه تحقيق دقة مماثلة أو أفضل من نموذج الترانسفورمر القياسي في كل من الانتباه غير المُنظم والانتباه المتقاطع. يعتمد cosFormer على خاصيتين رئيسيتين لعملية الانتباه المُعدّلة بـ softmax: أولاً، عدم سلبية مصفوفة الانتباه؛ وثانيًا، خطة إعادة وزن غير خطية يمكنها تجميع توزيع مصفوفة الانتباه. وبما أنه يُعد بديلًا خطيًا، يحقق cosFormer هاتين الخاصيتين من خلال عملية خطية وآلية إعادة وزن تعتمد على المسافة الكوسينية. أظهرت التجارب الواسعة على مهام نمذجة اللغة وفهم النص فعالية طريقتنا. كما قمنا بفحص طريقتنا على التسلسلات الطويلة، وحققنا أداءً متفوقًا على معيار Long-Range Arena. يمكن الوصول إلى الكود المصدري عبر الرابط: https://github.com/OpenNLPLab/cosFormer.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp