توسيع نماذج اللغة المدربة على التعليمات

تم إثبات أن تحسين نماذج اللغة من خلال التدريب الدقيق على مجموعة من قواعد البيانات مصاغة كتعليمات يحسن أداء النموذج وتعميمه على المهام غير المعروفة. في هذا البحث، نستكشف التدريب الدقيق بالتعليمات مع التركيز بشكل خاص على (1) زيادة عدد المهام، (2) زيادة حجم النموذج، و(3) التدريب الدقيق على بيانات سلسلة الفكر (chain-of-thought). وجدنا أن التدريب الدقيق بالتعليمات مع الجوانب المذكورة يحسن الأداء بشكل كبير على مجموعة متنوعة من فئات النماذج (PaLM، T5، U-PaLM)، وأطر الإثارة (الإثارة بدون أمثلة، الإثارة بنماذج قليلة، سلسلة الفكر (CoT))، ومعايير التقييم (MMLU، BBH، TyDiQA، MGSM، التوليد المفتوح). على سبيل المثال، يتفوق Flan-PaLM 540B الذي تم تدريبه بدقة على 1.8K مهمة بفارق كبير على PaLM 540B (+9.4% في المتوسط). يصل Flan-PaLM 540B إلى أفضل الأداء الحالي في عدة معايير تقييمية مثل نسبة 75.2% في MMLU بنماذج خمسية. كما نقوم بإطلاق نقاط تحكم Flan-T5 للجمهور بشكل عام، والتي تحقق أداءً قويًا حتى عند مقارنتها بنماذج أكبر بكثير مثل PaLM 62B. بشكل عام، يعتبر التدريب الدقيق بالتعليمات طريقة عامة لتحسين أداء واستخدام النماذج اللغوية المدربة مسبقًا.