HyperAIHyperAI

Command Palette

Search for a command to run...

ما وراء التنازل: التعلم المعزز الذاتي للنماذج الاستدلالية اتباع التعليمات

Qingyu Ren Qianyu He Bowei Zhang Jie Zeng Jiaqing Liang Yanghua Xiao Weikang Zhou Zeye Sun Fei Yu

الملخص

تتفوق نماذج الاستدلال في حل المشكلات المعقدة، لكنها تُظهر تنازلاً مقلقاً بين قدرات الاستدلال ومهارات اتباع التعليمات. تعتمد الطرق الحالية لتحسين اتباع التعليمات على نماذج خارجية أقوى، ما يُحدث عوائق منهجية وقيود عملية تشمل ارتفاع التكاليف وقيود الوصول. نقترح إطاراً ذاتياً للتعلم بالاعتماد على الاستدلال (self-supervised RL) يستفيد من الإشارات الداخلية الخاصة بنماذج الاستدلال لتحسين قدرتها على اتباع التعليمات دون الحاجة إلى إشراف خارجي. تُظهر التجارب الواسعة أن إطارنا يُحسّن بشكل ملحوظ من قدرة النموذج على اتباع التعليمات مع الحفاظ على أداء الاستدلال، مما يقدّم نهجاً قابلاً للتوسع وفعّالاً من حيث التكلفة لتعزيز مهارات اتباع التعليمات في نماذج الاستدلال. تم إتاحة البيانات والكود بشكل عام عبر الرابط: https://github.com/Rainier-rq/verl-if.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
ما وراء التنازل: التعلم المعزز الذاتي للنماذج الاستدلالية اتباع التعليمات | مستندات | HyperAI