منذ 8 أشهر

الملخص

ثبتت تقنيات التعلم التعزيزي مع المكافآت القابلة للتحقق (RLVR) فعاليتها في تدريب نماذج اللغات الكبيرة (LLMs) على مهام الاستدلال المعقدة، مثل حل المشكلات الرياضية. ومع ذلك، فإن شرط توسيع نطاق RLVR هو وجود مجموعة مشكلات ذات جودة عالية مع إجابات دقيقة وقابلة للتحقق. ولكن، يحد من فعالية هذه التقنية ندرة المشكلات الرياضية المحكمة والملصقة بيد البشر وإجاباتها المحدودة القابلة للتحقق في قواعد البيانات الاصطناعية الموجهة نحو التقطير. بالإضافة إلى ذلك، فإن معظم استراتيجيات صياغة المشكلات تتوسع بشكل غير منضبط في مجموعة المشكلات دون النظر إلى قدرات النموذج، مما يؤدي إلى كفاءة منخفضة في إنتاج أسئلة مفيدة.للتخفيف من هذه المشكلة، نقدم إطارًا لصياغة المشكلات المستندة إلى نقاط الضعف الذاتية (SwS)، والذي يحدد بشكل منهجي نقاط ضعف النموذج ويستغلها في توسيع نطاق المشكلات. وبشكل خاص، نعرّف نقاط الضعف بأنها الأسئلة التي يفشل النموذج باستمرار في تعلمها خلال عملياته العينية المتكررة أثناء تدريب RL. ثم نستخلص المفاهيم الأساسية من هذه الحالات الفاشلة ونقوم بتكوين مشكلات جديدة لتعزيز نقاط ضعف النموذج في التدريب المعزز اللاحق، مما يمكنه من التركيز على وتخطي نقاط ضعفه تدريجيًا. بدون الاعتماد على التقطير المعرفي الخارجي، يمكّن إطارنا النموذج من تحقيق تعميم قوي عن طريق تمكينه من تحديد وحل نقاط ضعفه في RL، مما أدى إلى زيادة متوسط الأداء بنسبة 10.0% و7.7% على نماذج بحجم 7 مليار و32 مليار معلمة عبر ثمانية مقاييس استدلال رئيسية.

ملف PDF المصدر عرض الكود

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Liang Xiao Li Zhong-Zhi Gong Yeyun Wang Yang Zhang Hengyuan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Liang Xiao Li Zhong-Zhi Gong Yeyun Wang Yang Zhang Hengyuan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Liang Xiao Li Zhong-Zhi Gong Yeyun Wang Yang Zhang Hengyuan

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

SwS: التركيب الذاتي للمشكلات المستندة إلى الضعف في التعلم التعزيزي لمنطق النماذج اللغوية الكبيرة

Liang Xiao Li Zhong-Zhi Gong Yeyun Wang Yang Zhang Hengyuan6 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

SwS: التركيب الذاتي للمشكلات المستندة إلى الضعف في التعلم التعزيزي لمنطق النماذج اللغوية الكبيرة

Liang Xiao Li Zhong-Zhi Gong Yeyun Wang Yang Zhang Hengyuan6 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

SwS: التركيب الذاتي للمشكلات المستندة إلى الضعف في التعلم التعزيزي لمنطق النماذج اللغوية الكبيرة

Liang Xiao Li Zhong-Zhi Gong Yeyun Wang Yang Zhang Hengyuan6 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Liang Xiao Li Zhong-Zhi Gong Yeyun Wang Yang Zhang Hengyuan

Liang Xiao Li Zhong-Zhi Gong Yeyun Wang Yang Zhang Hengyuan

Liang Xiao Li Zhong-Zhi Gong Yeyun Wang Yang Zhang Hengyuan