التعلم النقل المُدَرَجْ بِالْمُعَلَّمَات لمعالجة اللغات الطبيعية

ضبط النماذج المدربة مسبقًا الكبيرة هو آلية نقل فعالة في معالجة اللغة الطبيعية (NLP). ومع ذلك، عند وجود العديد من المهام اللاحقة، يكون الضبط غير كفؤ من حيث المعلمات: يتطلب كل مهمة نموذجًا جديدًا بالكامل. كبديل، نقترح نقل باستخدام وحدات التكيف (adapter modules). تقدم وحدات التكيف نموذجًا مضغوطًا وقابلًا للتوسيع؛ فهي تضيف فقط بضعة معلمات قابلة للتدريب لكل مهمة، ويمكن إضافة مهام جديدة دون العودة إلى السابقة. تظل معلمات الشبكة الأصلية ثابتة، مما يؤدي إلى درجة عالية من تقاسم المعلمات. لبيان فعالية وحدات التكيف، قمنا بنقل نموذج BERT Transformer الذي تم اقتراحه مؤخرًا إلى 26 مهمة تصنيف نص مختلفة، بما في ذلك مقاييس GLUE. حققت وحدات التكيف أداءً قريبًا من أفضل الأداء الحالي، بينما أضافت فقط بضعة معلمات لكل مهمة. على مقاييس GLUE، حققنا أداءً يبلغ 0.4% أقل من أداء الضبط الكامل، مع إضافة فقط 3.6% من المعلمات لكل مهمة. بالمقارنة، يقوم الضبط الكامل بتدريب 100% من المعلمات لكل مهمة.