الاستمرار في التعلم: التعلم التلقائي التشاركي للتعلم من الاستنتاج

تُعدّ الطريقة الشائعة في العديد من خوارزميات التعلم الآلي هي التعلم ذاتي التوجيه على بيانات كبيرة غير مُعلَّمة، قبل التخصيص الدقيق (fine-tuning) على المهام التالية لتحسين الأداء بشكل أكبر. وتقترح طريقة جديدة لنمذجة اللغة تُسمى "التقييم الديناميكي" (dynamic evaluation)، التي تُعدّل نموذجًا تم تدريبه داخليًا أثناء عملية الاستدلال باستخدام تسميات صحيحة بسيطة متاحة بشكل تلقائي، مما يُحدث تحسنًا كبيرًا في الأداء. ومع ذلك، لا يمكن تمديد هذه الطريقة بسهولة إلى مهام التصنيف، حيث تُعدّ التسميات الصحيحة غائبة أثناء الاستدلال. نقترح حل هذه المشكلة من خلال استخدام التدريب الذاتي (self-training) وعكس خسارة النموذج من خلال توقعاته المتوازنة حسب الفئات (تسميات وهمية)، مع تكييف خوارزمية Reptile من مجال التعلم الميتا، مُدمجة مع ميول توجيهية (inductive bias) نحو القيم المُدرَّبة مسبقًا لتحسين التعميم. تُحسّن طريقةنا أداء النماذج القياسية مثل BERT وElectra وResNet-50 على مجموعة واسعة من المهام، مثل الإجابة على الأسئلة في مجموعتي SQuAD وNewsQA، ومهام معيارية مثل SuperGLUE، وتحديد ردود المحادثات في مجموعة بيانات Ubuntu Dialog v2.0، بالإضافة إلى تصنيف الصور في MNIST وImageNet، دون أي تغيير في النماذج الأساسية. وتتفوق طريقتنا على الطرق السابقة، وتمكّن من التخصيص الذاتي أثناء الاستدلال لأي نموذج تصنيف لتحسين التكيف مع المجال المستهدف، ويمكن تكييفها بسهولة على أي نموذج، كما أنها فعّالة في البيئات الزمنية الحية (online) والتعلم المن転 (transfer learning).