منذ 13 أيام

RL-PLUS: مواجهة انهيار الحدود القدرة للنماذج الكبيرة للغة في التعلم التعزيزي من خلال تحسين السياسة الهجينة

Yihong Dong, Xue Jiang, Yongding Tao, Huanyu Liu, Kechi Zhang, Lili Mou, et al

الملخص

لقد حققت التعلم القوي مع مكافأة قابلة للتحقق (RLVR) تقدماً كبيراً في تعزيز قدرات النماذج اللغوية الكبيرة (LLMs) على التفكير المعقد. ومع ذلك، تواجه صعوبة في التغلب على الحدود المتأصلة في القدرات الخاصة بالنموذج الأساسي، نظراً لاستراتيجيتها المُطبقة داخلياً (on-policy) وفضاء الإجراءات الضخم الذي تمتلكه النماذج اللغوية الكبيرة، بالإضافة إلى توزيع المكافآت النادر. علاوة على ذلك، قد يؤدي RLVR إلى انهيار حدود القدرات، مما يضيق نطاق قدرة النموذج على حل المشكلات. ولحل هذه المشكلة، نقترح منهجية جديدة تُسمى RL-PLUS، والتي تُدمج بين الاستغلال الداخلي (أي التفكير) والبيانات الخارجية (أي التعلم) لتحقيق قدرات تفكير أقوى وتجاوز الحدود المحدودة للنماذج الأساسية. يعتمد RL-PLUS على مكوّنين رئيسيين: أولاً، العينات المهمة المتعددة (Multiple Importance Sampling) لمعالجة تباين التوزيع الناتج عن البيانات الخارجية، وثانياً، دالة ميزة قائمة على الاستكشاف (Exploration-Based Advantage Function) لقيادة النموذج نحو مسارات تفكير عالية القيمة وغير مستكشفة. قمنا بتقديم تحليل نظري وتجارب واسعة النطاق لإثبات تفوق وقابلية تعميم منهجيتنا. تُظهر النتائج أن RL-PLUS تحقق أداءً متفوّقاً على أحدث الطرق المتوفرة في مجال RLVR على ستة معايير لتمارين التفكير الرياضي، كما أظهرت أداءً متفوّقاً في ستة مهام تفكير خارج التوزيع (out-of-distribution). كما حققت تحسينات متسقة وملحوظة عبر مجموعة متنوعة من عائلات النماذج، بزيادة نسبية متوسطة تتراوح بين 21.1% و69.2%. علاوة على ذلك، تُظهر منحنيات Pass@k عبر عدة معايير أن RL-PLUS نجحت فعلاً في معالجة مشكلة انهيار حدود القدرات.