منذ 2 أشهر

توسيع نماذج اللغة المدربة على التعليمات

Hyung Won Chung; Le Hou; Shayne Longpre; Barret Zoph; Yi Tay; William Fedus; Yunxuan Li; Xuezhi Wang; Mostafa Dehghani; Siddhartha Brahma; Albert Webson; Shixiang Shane Gu; Zhuyun Dai; Mirac Suzgun; Xinyun Chen; Aakanksha Chowdhery; Alex Castro-Ros; Marie Pellat; Kevin Robinson; Dasha Valter; Sharan Narang; Gaurav Mishra; Adams Yu; Vincent Zhao; Yanping Huang; Andrew Dai; Hongkun Yu; Slav Petrov; Ed H. Chi; Jeff Dean; Jacob Devlin; Adam Roberts; Denny Zhou; Quoc V. Le; Jason Wei

عرض تفاصيل الورقة البحثية

الملخص

تم إثبات أن تحسين نماذج اللغة من خلال التدريب الدقيق على مجموعة من قواعد البيانات مصاغة كتعليمات يحسن أداء النموذج وتعميمه على المهام غير المعروفة. في هذا البحث، نستكشف التدريب الدقيق بالتعليمات مع التركيز بشكل خاص على (1) زيادة عدد المهام، (2) زيادة حجم النموذج، و(3) التدريب الدقيق على بيانات سلسلة الفكر (chain-of-thought). وجدنا أن التدريب الدقيق بالتعليمات مع الجوانب المذكورة يحسن الأداء بشكل كبير على مجموعة متنوعة من فئات النماذج (PaLM، T5، U-PaLM)، وأطر الإثارة (الإثارة بدون أمثلة، الإثارة بنماذج قليلة، سلسلة الفكر (CoT))، ومعايير التقييم (MMLU، BBH، TyDiQA، MGSM، التوليد المفتوح). على سبيل المثال، يتفوق Flan-PaLM 540B الذي تم تدريبه بدقة على 1.8K مهمة بفارق كبير على PaLM 540B (+9.4% في المتوسط). يصل Flan-PaLM 540B إلى أفضل الأداء الحالي في عدة معايير تقييمية مثل نسبة 75.2% في MMLU بنماذج خمسية. كما نقوم بإطلاق نقاط تحكم Flan-T5 للجمهور بشكل عام، والتي تحقق أداءً قويًا حتى عند مقارنتها بنماذج أكبر بكثير مثل PaLM 62B. بشكل عام، يعتبر التدريب الدقيق بالتعليمات طريقة عامة لتحسين أداء واستخدام النماذج اللغوية المدربة مسبقًا.