HyperAI

الصعود ينحت الحكمة أعمق من القمة: حول المكافآت الضوضائية في تعلم الاستدلال

Lv, Ang ; Xie, Ruobing ; Sun, Xingwu ; Kang, Zhanhui ; Yan, Rui
تاريخ النشر: 6/1/2025
الصعود ينحت الحكمة أعمق من القمة: حول المكافآت الضوضائية في تعلم الاستدلال
الملخص

دراسات حديثة حول تدريب النماذج اللغوية الكبيرة (LLMs) بعد التدريب الأولي باستخدام التعلم التعزيزي (RL) تركز عادةً على مهام يمكن التحقق منها وتقديم المكافآت لها بدقة، مثل حل المسائل الرياضية. بخلاف ذلك، يتناول بحثنا تأثير الضوضاء في المكافآت، وهي اعتبار أكثر عملية للسيناريوهات الحقيقية التي تتضمن تدريب نماذج LLMs بعد التدريب الأولي باستخدام نماذج المكافآت. اكتشفنا أن نماذج LLMs تظهر قوة مقاومة كبيرة للضوضاء في المكافآت بشكل كبير. على سبيل المثال، قلب 40٪ من مخرجات دالة المكافأة في مهام الرياضيات لا يزال يسمح لنموذج Qwen-2.5-7B بالوصول إلى التقارب السريع، مما يحسن أدائه في مهام الرياضيات من 5٪ إلى 72٪، مقارنة بدقة 75٪ التي حققها النموذج الذي تم تدريبه مع مكافآت خالية من الضوضاء. وبشكل مفاجئ، تمكنت النموذج من تحقيق أداء نهائي ذروة (أكثر من 70٪ دقة لنموذج Qwen-2.5-7B) مشابه لأنماط النماذج التي تم تدريبها مع التحقق الدقيق من صحة الإجابات والمكافآت الدقيقة عن طريق تقديم مكافآت فقط لظهور عبارات المنطق الرئيسية (وهو ما يعرف بمكافأة نمط المنطق، RPR)، مثل "أولاً، عليّ أن" - دون التحقق من صحة الإجابات. معترفين بأهمية عملية المنطق أكثر من النتائج النهائية، جمعنا بين RPR ونماذج المكافآت ذات الضوضاء. ساعدت RPR في ضبط نماذج المكافآت ذات الضوضاء، مما خفف من السلبيات المحتملة وأدى إلى تعزيز أداء نماذج LLMs في المهام غير المقيدة. هذه النتائج تقترح أهمية تحسين القدرات الأساسية للنماذج خلال مرحلة التدريب الأولي بينما توفر رؤى لتطوير تقنيات التدريب اللاحق. شفرتنا البرمجية وscrips متاحة على https://github.com/trestad/Noisy-Rewards-in-Learning-to-Reason.注释:在阿拉伯语中,“scripts”通常翻译为“السكريبت”或“البرامج النصية”。在这里,我选择了“البرامج النصية”以保持更正式的语气。