HyperAIHyperAI
منذ 12 أيام

ما وراء التنازل: التعلم المعزز الذاتي للنماذج الاستدلالية اتباع التعليمات

Qingyu Ren, Qianyu He, Bowei Zhang, Jie Zeng, Jiaqing Liang, Yanghua Xiao, Weikang Zhou, Zeye Sun, Fei Yu
ما وراء التنازل: التعلم المعزز الذاتي للنماذج الاستدلالية اتباع التعليمات
الملخص

تتفوق نماذج الاستدلال في حل المشكلات المعقدة، لكنها تُظهر تنازلاً مقلقاً بين قدرات الاستدلال ومهارات اتباع التعليمات. تعتمد الطرق الحالية لتحسين اتباع التعليمات على نماذج خارجية أقوى، ما يُحدث عوائق منهجية وقيود عملية تشمل ارتفاع التكاليف وقيود الوصول. نقترح إطاراً ذاتياً للتعلم بالاعتماد على الاستدلال (self-supervised RL) يستفيد من الإشارات الداخلية الخاصة بنماذج الاستدلال لتحسين قدرتها على اتباع التعليمات دون الحاجة إلى إشراف خارجي. تُظهر التجارب الواسعة أن إطارنا يُحسّن بشكل ملحوظ من قدرة النموذج على اتباع التعليمات مع الحفاظ على أداء الاستدلال، مما يقدّم نهجاً قابلاً للتوسع وفعّالاً من حيث التكلفة لتعزيز مهارات اتباع التعليمات في نماذج الاستدلال. تم إتاحة البيانات والكود بشكل عام عبر الرابط: https://github.com/Rainier-rq/verl-if.