HyperAI

SwS: التركيب الذاتي للمشكلات المستندة إلى الضعف في التعلم التعزيزي لمنطق النماذج اللغوية الكبيرة

Liang, Xiao ; Li, Zhong-Zhi ; Gong, Yeyun ; Wang, Yang ; Zhang, Hengyuan ; Shen, Yelong ; Wu, Ying Nian ; Chen, Weizhu
تاريخ النشر: 6/16/2025
SwS: التركيب الذاتي للمشكلات المستندة إلى الضعف في التعلم التعزيزي لمنطق النماذج اللغوية الكبيرة
الملخص

ثبتت تقنيات التعلم التعزيزي مع المكافآت القابلة للتحقق (RLVR) فعاليتها في تدريب نماذج اللغات الكبيرة (LLMs) على مهام الاستدلال المعقدة، مثل حل المشكلات الرياضية. ومع ذلك، فإن شرط توسيع نطاق RLVR هو وجود مجموعة مشكلات ذات جودة عالية مع إجابات دقيقة وقابلة للتحقق. ولكن، يحد من فعالية هذه التقنية ندرة المشكلات الرياضية المحكمة والملصقة بيد البشر وإجاباتها المحدودة القابلة للتحقق في قواعد البيانات الاصطناعية الموجهة نحو التقطير. بالإضافة إلى ذلك، فإن معظم استراتيجيات صياغة المشكلات تتوسع بشكل غير منضبط في مجموعة المشكلات دون النظر إلى قدرات النموذج، مما يؤدي إلى كفاءة منخفضة في إنتاج أسئلة مفيدة.للتخفيف من هذه المشكلة، نقدم إطارًا لصياغة المشكلات المستندة إلى نقاط الضعف الذاتية (SwS)، والذي يحدد بشكل منهجي نقاط ضعف النموذج ويستغلها في توسيع نطاق المشكلات. وبشكل خاص، نعرّف نقاط الضعف بأنها الأسئلة التي يفشل النموذج باستمرار في تعلمها خلال عملياته العينية المتكررة أثناء تدريب RL. ثم نستخلص المفاهيم الأساسية من هذه الحالات الفاشلة ونقوم بتكوين مشكلات جديدة لتعزيز نقاط ضعف النموذج في التدريب المعزز اللاحق، مما يمكنه من التركيز على وتخطي نقاط ضعفه تدريجيًا. بدون الاعتماد على التقطير المعرفي الخارجي، يمكّن إطارنا النموذج من تحقيق تعميم قوي عن طريق تمكينه من تحديد وحل نقاط ضعفه في RL، مما أدى إلى زيادة متوسط الأداء بنسبة 10.0% و7.7% على نماذج بحجم 7 مليار و32 مليار معلمة عبر ثمانية مقاييس استدلال رئيسية.