منذ 11 أيام

إعادة التفكير في الانتباه باستخدام Performers

Krzysztof Choromanski, Valerii Likhosherstov, David Dohan, Xingyou Song, Andreea Gane, Tamas Sarlos, Peter Hawkins, Jared Davis, Afroz Mohiuddin, Lukasz Kaiser, David Belanger, Lucy Colwell, Adrian Weller

عرض تفاصيل الورقة البحثية

إعادة التفكير في الانتباه باستخدام Performers

الملخص

نقدّم "Performers"، وهي هياكل معمارية من نوع Transformer قادرة على تقدير نماذج Transformer ذات انتباه كامل الرتبة (full-rank) باستخدام دالة التنشيط العادية (softmax) بدقة مضمونة، ولكن بتعقيد خطي (بدلًا من تربيعي) من حيث المساحة والوقت، دون الاعتماد على أي افتراضات مسبقة مثل الندرة (sparsity) أو انخفاض الرتبة (low-rankness). لتقريب نوى الانتباه التي تعتمد على دالة softmax، تستخدم Performers منهجية جديدة تُسمى "الانتباه السريع عبر الميزات العشوائية المتعامدة الموجبة" (FAVOR+)، والتي قد تكون ذات أهمية مستقلة في مجالات طرق النوى القابلة للتوسع. ويمكن أيضًا استخدام FAVOR+ لتمثيل آليات انتباه قابلة لتحويل النواة (kernelizable) خارج نطاق softmax بكفاءة. تُعد هذه القوة التمثيلية أمرًا حاسمًا لتمكين المقارنة الدقيقة بين دالة softmax ودوال أخرى للنوى لأول مرة في مهام ذات حجم كبير، تتجاوز قدرة الـ Transformers التقليدية، والتحقيق في أفضل أنواع نوى الانتباه. تتميز Performers بكونها هياكل خطية متوافقة تمامًا مع الـ Transformers العادية، وتتمتع بضمانات نظرية قوية، مثل تقدير غير متحيز أو شبه متحيز لمصفوفة الانتباه، والتقارب الموحد، وانعدام التباين في التقدير. تم اختبار Performers على مجموعة واسعة من المهام، تمتد من توقع القيم البكسلية إلى نماذج النصوص ونمذجة تسلسل البروتينات. وقد أظهرنا نتائج تنافسية مقارنةً بأساليب أخرى فعالة من حيث الكثافة أو الندرة في الانتباه، مما يُبرز فعالية النموذج الجديد لتعلم الانتباه الذي تعتمده Performers.