منذ 17 أيام

الانتباه العشوائي المميز

Hao Peng, Nikolaos Pappas, Dani Yogatama, Roy Schwartz, Noah A. Smith, Lingpeng Kong

الملخص

تُعد نماذج الترانسفورمر من أحدث النماذج المستخدمة في مجموعة متنوعة من مهام نمذجة التسلسلات. وتمثّل الدالة الانتباه في قلب هذه النماذج، حيث تقوم بنمذجة التفاعلات الزوجية بين المدخلات في كل لحظة زمنية. وعلى الرغم من قوة دالة الانتباه، إلا أنها لا تُ-scalable بكفاءة إلى التسلسلات الطويلة بسبب تعقيدها التوافقي (التربيعية) في الوقت والمساحة بالنسبة لطول التسلسل. نقترح نموذج RFA، وهو انتباه بتعقيد خطي في الوقت والمساحة، يعتمد على طرق الميزات العشوائية لتقريب دالة السوتفتماكس، ونستكشف تطبيقه في نماذج الترانسفورمر. يمكن استخدام RFA كاستبدال مباشر لدالة الانتباه التقليدية السوتفتماكس، كما يوفر طريقة مباشرة لتعلم النماذج مع ميل نحو الأحداث الأخيرة من خلال آلية تمرير اختيارية (Gating Mechanism). أظهرت التجارب في مهام نمذجة اللغة والترجمة الآلية أن RFA يحقق أداءً مماثلاً أو أفضل مقارنةً بنماذج الترانسفورمر القوية. وفي تجربة الترجمة الآلية، تمكّن RFA من فك التشفير بسرعة مرتين أسرع من نموذج الترانسفورمر القياسي. مقارنةً بالنماذج الفعّالة الحالية من الترانسفورمر، يُظهر RFA أداءً تنافسيًا من حيث الدقة والكفاءة على ثلاث مجموعات بيانات لتصنيف النصوص الطويلة. وتشير تحليلاتنا إلى أن مكاسب الكفاءة التي تحققها RFA تكون بارزة بشكل خاص في التسلسلات الطويلة، مما يشير إلى أن RFA ستكون مفيدة بشكل خاص في المهام التي تتطلب التعامل مع مدخلات كبيرة، أو سرعة فك تشفير عالية، أو استهلاك منخفض للذاكرة.