HyperAI
منذ 4 أيام

RLPR: توسيع RLVR إلى مجالات عامة دون مدققين

Tianyu Yu, Bo Ji, Shouli Wang, Shu Yao, Zefan Wang, Ganqu Cui, Lifan Yuan, Ning Ding, Yuan Yao, Zhiyuan Liu, Maosong Sun, Tat-Seng Chua
RLPR: توسيع RLVR إلى مجالات عامة دون مدققين
الملخص

يُظهر التعلم التعزيزي مع المكافآت القابلة للتحقق (RLVR) إمكانات واعدة في تطوير قدرات الاستدلال للنماذج اللغوية الكبيرة (LLMs). ومع ذلك، لا يزال نجاحه مقتصرًا بشكل كبير على مجالات الرياضيات والبرمجة. يعود هذا القيود الرئيسي إلى الاعتماد الشديد على مدققي المجال المحدد، مما يؤدي إلى تعقيد غير قابل للتحمل وقابلية توسعة محدودة. لمعالجة هذا التحدي، فإن الملاحظة الرئيسية لدينا هي أن احتمالية النموذج اللغوي الكبير لإنتاج إجابة حرة صحيحة تشير مباشرة إلى تقييمه الخاص لمكافأة الاستدلال (أي مدى جودة عملية الاستدلال في الوصول إلى الإجابة الصحيحة). بناءً على هذه الرؤية، نقترح RLPR، وهو إطار بسيط خالٍ من المدققين يوسع نطاق RLVR ليشمل مجالات عامة أوسع. يستخدم RLPR احتمالات الرموز الخاصة بالنموذج اللغوي الكبير كإشارة للمكافأة ويُعظم المكافأة المتوقعة أثناء التدريب. نجد أن معالجة التباين العالي لهذه الإشارة الاحتمالية الضوضائية أمر حاسم لتحقيق فعاليتها، ونقترح طرق تحويل الاحتمال إلى مكافأة وطرق الاستقرار لضمان الحصول على مكافأة دقيقة ومستقرة من الاحتمالات الداخلية للنموذج اللغوي الكبير. أظهرت التجارب الشاملة في أربع مقاييس عامة ومقياسين رياضيين أن RLPR يحسن باستمرار قدرات الاستدلال في كلا المجالين بالنسبة للنماذج المستندة إلى Gemma وLlama وQwen. وبشكل لافت للنظر، حقق RLPR تفوقًا على VeriFree المتزامنة بمقدار 7.6 نقطة في TheoremQA و7.5 نقطة في Minerva، وحتى تجاوز النهج القائمة على النماذج القوية المعتمدة على المدققين مثل General-Reasoner بمتوسط 1.6 نقطة عبر سبعة مقاييس.