OPT-IML: توسيع التعلم الميتا لتعليم نماذج اللغة من خلال منظور التعميم

أظهرت الدراسات الحديثة أن تعديل النماذج اللغوية الكبيرة المُدرَّبة مسبقًا على مجموعة من المهام الموصوفة من خلال تعليمات، المعروفة بـ "الضبط بالتعليمات" (instruction-tuning)، يُحسّن قدرتها على التعميم الصفرية والقليلة التمثيل (zero and few-shot generalization) على مهام غير مرئية. ومع ذلك، لا تزال هناك فهماً محدودًا للتنازلات الأداء الناتجة عن القرارات المختلفة المتخذة أثناء عملية الضبط بالتعليمات. تشمل هذه القرارات حجم وتنوع مجموعة بيانات التدريب للضبط بالتعليمات، واستراتيجيات مختلفة لاستخلاص المهام، والتعديل مع أو بدون أمثلة توضيحية، والتدريب باستخدام مجموعات بيانات متخصصة للتفكير والمحادثة، بالإضافة إلى أهداف الضبط نفسها. في هذه الورقة، نُوصِف تأثير قرارات الضبط بالتعليمات على أداء النماذج في المهام اللاحقة عند توسيع حجم النموذج وحجم مجموعة البيانات. من أجل هذا الغرض، قمنا بإنشاء OPT-IML Bench: وهي مجموعة بيانات كبيرة للتعلم التلقائي للتعليمات (Instruction Meta-Learning) تضم 2000 مهمة في مجال معالجة اللغة الطبيعية (NLP)، تم دمجها في فئات مهام من ثماني مجموعات بيانات موجودة مسبقًا، كما أعددنا إطار تقييم لقياس ثلاث أنواع من التعميمات النموذجية: التعميم على مهام من فئات لم تُستخدم مطلقًا (fully held-out categories)، على مهام محفوظة من فئات مُدرَّسة سابقًا، وعلى أمثلة محفوظة من مهام مُدرَّسة. من خلال هذا الإطار، نقدّم أولًا رؤى حول قرارات الضبط بالتعليمات عند تطبيقها على النموذج OPT-30B، ثم نستغل هذه الرؤى لتدريب نموذجي OPT-IML 30B و175B، وهما نسختان مُعدّلتان بالتعليمات من نموذج OPT. تُظهر نماذج OPT-IML القدرة على التعميم الثلاثة في كلا الحجمين على أربع مجموعات تقييم مختلفة ذات مهام وتنسيقات إدخال متنوعة — PromptSource، FLAN، Super-NaturalInstructions، وUnifiedSKG. ليس فقط تتفوّق بشكل كبير على النموذج الأصلي OPT في جميع مجموعات التقييم، بل تُعدّ أيضًا منافسة قوية للنماذج الحالية التي تم ضبطها على كل مجموعة تقييم على حدة. نُطلق نماذج OPT-IML بحجمين، مع إطار التقييم OPT-IML Bench.