HyperAIHyperAI

Command Palette

Search for a command to run...

RL-PLUS: مواجهة انهيار الحدود القدرة للنماذج الكبيرة للغة في التعلم التعزيزي من خلال تحسين السياسة الهجينة

Yihong Dong Xue Jiang Yongding Tao Huanyu Liu Kechi Zhang Lili Mou et al

الملخص

لقد حققت التعلم القوي مع مكافأة قابلة للتحقق (RLVR) تقدماً كبيراً في تعزيز قدرات النماذج اللغوية الكبيرة (LLMs) على التفكير المعقد. ومع ذلك، تواجه صعوبة في التغلب على الحدود المتأصلة في القدرات الخاصة بالنموذج الأساسي، نظراً لاستراتيجيتها المُطبقة داخلياً (on-policy) وفضاء الإجراءات الضخم الذي تمتلكه النماذج اللغوية الكبيرة، بالإضافة إلى توزيع المكافآت النادر. علاوة على ذلك، قد يؤدي RLVR إلى انهيار حدود القدرات، مما يضيق نطاق قدرة النموذج على حل المشكلات. ولحل هذه المشكلة، نقترح منهجية جديدة تُسمى RL-PLUS، والتي تُدمج بين الاستغلال الداخلي (أي التفكير) والبيانات الخارجية (أي التعلم) لتحقيق قدرات تفكير أقوى وتجاوز الحدود المحدودة للنماذج الأساسية. يعتمد RL-PLUS على مكوّنين رئيسيين: أولاً، العينات المهمة المتعددة (Multiple Importance Sampling) لمعالجة تباين التوزيع الناتج عن البيانات الخارجية، وثانياً، دالة ميزة قائمة على الاستكشاف (Exploration-Based Advantage Function) لقيادة النموذج نحو مسارات تفكير عالية القيمة وغير مستكشفة. قمنا بتقديم تحليل نظري وتجارب واسعة النطاق لإثبات تفوق وقابلية تعميم منهجيتنا. تُظهر النتائج أن RL-PLUS تحقق أداءً متفوّقاً على أحدث الطرق المتوفرة في مجال RLVR على ستة معايير لتمارين التفكير الرياضي، كما أظهرت أداءً متفوّقاً في ستة مهام تفكير خارج التوزيع (out-of-distribution). كما حققت تحسينات متسقة وملحوظة عبر مجموعة متنوعة من عائلات النماذج، بزيادة نسبية متوسطة تتراوح بين 21.1% و69.2%. علاوة على ذلك، تُظهر منحنيات Pass@k عبر عدة معايير أن RL-PLUS نجحت فعلاً في معالجة مشكلة انهيار حدود القدرات.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
RL-PLUS: مواجهة انهيار الحدود القدرة للنماذج الكبيرة للغة في التعلم التعزيزي من خلال تحسين السياسة الهجينة | مستندات | HyperAI