HyperAIHyperAI

Command Palette

Search for a command to run...

SwS: التركيب الذاتي للمشكلات المستندة إلى الضعف في التعلم التعزيزي لمنطق النماذج اللغوية الكبيرة

الملخص

ثبتت تقنيات التعلم التعزيزي مع المكافآت القابلة للتحقق (RLVR) فعاليتها في تدريب نماذج اللغات الكبيرة (LLMs) على مهام الاستدلال المعقدة، مثل حل المشكلات الرياضية. ومع ذلك، فإن شرط توسيع نطاق RLVR هو وجود مجموعة مشكلات ذات جودة عالية مع إجابات دقيقة وقابلة للتحقق. ولكن، يحد من فعالية هذه التقنية ندرة المشكلات الرياضية المحكمة والملصقة بيد البشر وإجاباتها المحدودة القابلة للتحقق في قواعد البيانات الاصطناعية الموجهة نحو التقطير. بالإضافة إلى ذلك، فإن معظم استراتيجيات صياغة المشكلات تتوسع بشكل غير منضبط في مجموعة المشكلات دون النظر إلى قدرات النموذج، مما يؤدي إلى كفاءة منخفضة في إنتاج أسئلة مفيدة.للتخفيف من هذه المشكلة، نقدم إطارًا لصياغة المشكلات المستندة إلى نقاط الضعف الذاتية (SwS)، والذي يحدد بشكل منهجي نقاط ضعف النموذج ويستغلها في توسيع نطاق المشكلات. وبشكل خاص، نعرّف نقاط الضعف بأنها الأسئلة التي يفشل النموذج باستمرار في تعلمها خلال عملياته العينية المتكررة أثناء تدريب RL. ثم نستخلص المفاهيم الأساسية من هذه الحالات الفاشلة ونقوم بتكوين مشكلات جديدة لتعزيز نقاط ضعف النموذج في التدريب المعزز اللاحق، مما يمكنه من التركيز على وتخطي نقاط ضعفه تدريجيًا. بدون الاعتماد على التقطير المعرفي الخارجي، يمكّن إطارنا النموذج من تحقيق تعميم قوي عن طريق تمكينه من تحديد وحل نقاط ضعفه في RL، مما أدى إلى زيادة متوسط الأداء بنسبة 10.0% و7.7% على نماذج بحجم 7 مليار و32 مليار معلمة عبر ثمانية مقاييس استدلال رئيسية.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp