اللعب الذاتي مع التغذية الراجعة التنفيذية: تحسين قدرات النماذج اللغوية الكبيرة على اتباع التعليمات

إحدى القدرات الأساسية للنماذج اللغوية الكبيرة (LLMs) هي القدرة على اتباع التعليمات بلغة طبيعية. ومع ذلك، لا يزال هناك مسألة غير محلولة تتمثل في إنشاء تلقائي لبيانات التدريب عالية الجودة لتعزيز قدرات النماذج على اتباع التعليمات المعقدة دون الحاجة إلى التصنيف اليدوي. في هذا البحث، نقدّم AutoIF، وهي أول طريقة قابلة للتوسع وموثوقة لإنشاء بيانات تدريب تلقائيًا لاتباع التعليمات. تحوّل AutoIF عملية التحقق من جودة بيانات اتباع التعليمات إلى التحقق من الكود، حيث تُطلب من النماذج اللغوية الكبيرة إنشاء تعليمات، والكود المقابل لفحص صحة استجابات التعليمات، وعينات اختبار وحدات لتأكيد صحة الكود. ثم، يمكن استخدام عينة الرفض القائمة على ردود الفعل الناتجة عن التنفيذ لإنشاء بيانات للتدريب باستخدام خوارزميات التحسين المراقب (SFT) والتعلم التفعيلي من ردود الفعل البشرية (RLHF). حققت AutoIF تحسينات كبيرة في ثلاث خوارزميات تدريب: SFT، وDPO غير المباشر، وDPO المباشر، عند تطبيقها على أفضل النماذج المفتوحة المصدر، Qwen2 وLLaMA3، في بيئات التوافق الذاتي وتمييز القوة إلى الضعف. يمكن الوصول إلى الكود الخاص بنا بشكل عام عبر الرابط التالي: https://github.com/QwenLM/AutoIF.