منذ 17 أيام

التعلم المتعدد المهام المتكيف شرطيًا: تحسين التعلم الناقل في معالجة اللغة الطبيعية باستخدام عدد أقل من المعاملات وبيانات أقل

Jonathan Pilault, Amine Elhattami, Christopher Pal

الملخص

لقد برزت شبكات التعلم متعدد المهام (MTL) كطريقة واعدة لنقل المعرفة المكتسبة عبر مهام مختلفة. ومع ذلك، يجب على MTL مواجهة تحديات مثل: التعلم الزائد للمهام ذات الموارد المحدودة، والانسياق الكارثي، والنقل السلبي بين المهام أو التداخل في التعلم. في كثير من الأحيان، في معالجة اللغة الطبيعية (NLP)، يتطلب تحقيق أفضل أداء نموذج منفصل لكل مهمة. ولكن العديد من مناهج التخصيص (fine-tuning) تكون غير فعّالة من حيث عدد المعاملات، أي أنّها قد تتطلب نموذجًا جديدًا لكل مهمة، كما أنها عرضة جدًا لفقدان المعرفة المكتسبة أثناء التدريب المسبق. نقترح معمارية جديدة لـ Transformer تتألف من آلية انتباه شرطية جديدة، بالإضافة إلى مجموعة من الوحدات المشروطة بالمهام، والتي تُسهّل مشاركة المعاملات. من خلال هذا التصميم (مُعدّل مُهندس فائق)، نحقق مشاركة أكثر كفاءة في المعاملات، ونخفّف من ظاهرة الانسياق من خلال الحفاظ على نصف معاملات النموذج المُدرّب مسبقًا ثابتة. كما نستخدم استراتيجية جديدة لاستخلاص بيانات متعددة المهام لتقليل الآثار السلبية الناتجة عن عدم توازن البيانات بين المهام. وباستخدام هذا النهج، نتمكن من تجاوز طرق التخصيص الفردية للمهام مع الحفاظ على الكفاءة من حيث عدد المعاملات والبيانات (باستخدام حوالي 66٪ من البيانات لتحديث المعاملات). مقارنةً بأساليب BERT Large الأخرى على مجموعة GLUE، يتفوّق نموذجنا المكوّن من 8 مهام على الطرق الأخرى المُعتمدة على المُعدّلات بفارق 2.8٪، ويتفوّق نموذجنا المكوّن من 24 مهمة بفارق 0.7–1.0٪ على النماذج التي تستخدم التعلم متعدد المهام أو التخصيص الفردي. ونُظهر أن النسخة الأكبر من نهجنا المُعتمد على نموذج واحد متعدد المهام يُحقق أداءً تنافسيًا على 26 مهمة في مجال معالجة اللغة الطبيعية، ويُحقّق نتائج رائدة في عدد من مجموعات الاختبار والتطوير. يمكن الوصول إلى الكود الخاص بنا بشكل عام عبر الرابط التالي: https://github.com/CAMTL/CA-MTL.