Command Palette
Search for a command to run...
Shihui Yang Chengfeng Dou Peidong Guo Kai Lu Qiang Ju Fei Deng Rihui Xin

الملخص
لقد برزت منهجية التعلم بالتعزيز من خلال المكافآت القابلة للتحقق (RLVR) كإطار واعد لتعزيز قدرات التفكير الناقد في النماذج اللغوية الكبيرة. ومع ذلك، تعاني الطرق الحالية مثل GRPO من مشكلة توقف التدرجات (zero gradients). وتنجم هذه المشكلة في المقام الأول عن حدود التقطيع الثابتة لنسب الاحتمال على مستوى الرموز (tokens)، بالإضافة إلى عملية توحيد المكافآت المتماثلة، مما يؤدي إلى تحديثات تدرج غير فعالة واستغلال غير كافٍ للإجابات المولّدة. في هذا العمل، نقترح منهجية تحسين السياسة بالتقليم الديناميكي (DCPO)، التي تُقدّم استراتيجية تقليم ديناميكية تقوم بتعديل حدود التقليم تلقائيًا بناءً على احتمالات سابقة مخصصة لكل رمز، بهدف تعزيز الاستكشاف على مستوى الرموز، إلى جانب تقنية توحيد الميزة السلسة التي تقوم بتوحيد المكافآت عبر مراحل التدريب التراكمية، لتحسين الاستخدام الفعّال للإجابات على مستوى الاستجابة. أظهرت DCPO أداءً متقدّمًا على مستوى الحالة (state-of-the-art) في أربع معايير تجريبية، باستخدام أربع نماذج مختلفة. وبشكل خاص، حققت DCPO متوسطًا عند الترميز المُتَبَع (greedy decoding) بلغ 46.7، ومتوسطًا عند أخذ عينات 32 مرة (32 times sampling) بلغ 38.8 على معيار AIME24، متفوقةً على كل من DAPO (36.7/31.6) وGRPO (36.7/32.1) على نموذج Qwen2.5-Math-7B. وعلى معيار AIME25 المبني على نموذج Qwen2.5-14B، حققت DCPO أداءً بلغ (23.3/19.0)، متفوقةً على GRPO (13.3/10.5) وDAPO (20.0/15.3). علاوةً على ذلك، حققت DCPO تحسينًا متوسطًا بنسبة 28% في الميزة غير الصفرية مقارنةً بـ GRPO، وضاعفت كفاءة التدريب مقارنةً بـ DAPO، وقلّصت نسبة التقليم على مستوى الرموز بمقدار مرتبة واحدة مقارنةً بكل من GRPO وDAPO، مع تحقيق أداءً متفوّقًا في الوقت نفسه. تُبرز هذه النتائج فعالية DCPO في استغلال البيانات المولّدة بشكل أكثر كفاءة في سياق التعلم بالتعزيز ضمن النماذج اللغوية الكبيرة.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.