HyperAIHyperAI

Command Palette

Search for a command to run...

منذ شهر واحد

ExGRPO: التعلّم من التجربة لاستنتاج الاستنتاج

Runzhe Zhan Yafu Li Zhi Wang Xiaoye Qu Dongrui Liu Jing Shao Derek F. Wong Yu Cheng

ExGRPO: التعلّم من التجربة لاستنتاج الاستنتاج

الملخص

التعلم القوي من المكافآت القابلة للتحقق (RLVR) هو نموذج ناشئ يهدف إلى تحسين قدرة النماذج اللغوية الكبيرة على الاستدلال. ومع ذلك، فإن التدريب القياسي من نوع "نفس السياسة" (on-policy) يُلغي تجارب التقييم بعد تحديث واحد فقط، مما يؤدي إلى عدم كفاءة حسابية وانعدام استقرار. في حين أن الدراسات السابقة في مجال التعلم القوي قد أبرزت فوائد إعادة استخدام الخبرات السابقة، إلا أن دور خصائص التجربة في تشكيل ديناميكيات التعلم لدى النماذج الكبيرة الاستدلالية لا يزال غير مُستكشف بشكل كافٍ. في هذه الورقة، نقدم أول دراسة تحليلية لتحديد ما الذي يجعل تجربة استدلالية ذات قيمة، ونُحدد دقة التقييم (rollout correctness) والانتروبيا (entropy) كمؤشرات فعّالة لقيمة التجربة. استنادًا إلى هذه الرؤى، نُقدّم إطارًا يُسمى ExGRPO (تحسين سياسة المجموعة النسبية القائمة على الخبرة)، الذي يُنظّم ويُعطي أولوية للخبرات القيّمة، ويستخدم دالة هدف مختلطة توازن بين التوسع (الاستكشاف) واستغلال الخبرات. أظهرت التجارب على خمسة نماذج أساسية (بأحجام تتراوح بين 1.5 مليار إلى 8 مليارات معامل) أن ExGRPO يُحسّن بشكل متسق من أداء الاستدلال على معايير رياضية وعامة، بزيادة متوسطة قدرها +3.5 و+7.6 نقطة مقارنة بالطرق القياسية من نوع on-policy RLVR. علاوة على ذلك، يُثبّت ExGRPO عملية التدريب على كل من النماذج القوية والضعيفة، حيث تفشل الطرق القياسية. تُبرز هذه النتائج إدارة ذكية للخبرات كعنصر أساسي لضمان كفاءة وقابلية التوسع في نموذج RLVR.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
ExGRPO: التعلّم من التجربة لاستنتاج الاستنتاج | الأوراق البحثية | HyperAI