الملخص

يُعد التعلم المعزز غير الخاضع للإشراف مع مكافآت قابلة للتحقق (URLVR) مسارًا لتمكين التوسع في تدريب نماذج اللغات الكبيرة (LLMs) يتجاوز عنق الزجاجة الناجم عن الحاجة إلى الإشراف، وذلك من خلال استنتاج المكافآت دون الاعتماد على تسميات مرجعية حقيقية. وتستفيد الأعمال البحثية الحديثة من الإشارات الكامنة في النموذج نفسه، مُظهرًا مكاسب مبكرة واعدة، غير أن إمكاناته وحدوده لا تزال غير واضحة. وفي هذا العمل، نعيد النظر في منهجية URLVR ونقدم تحليلًا شاملاً يمتد إلى التصنيف التصنيفي، والأساس النظري، وسلسلة واسعة من التجارب.نصنّف أولاً أساليب URLVR إلى فئتين: الأساليب المعتمدة على الإشارات الكامنة (intrinsic) وتلك المعتمدة على إشارات خارجية، وذلك بناءً على مصادر المكافآت. ثم نؤسس إطارًا نظريًا موحدًا يُظهر أن جميع الأساليب الكامنة تتقارب نحو حدة توزيع النموذج الأولي. وتنجح آلية الحدة هذه عندما يتطابق الثقة الأولية للنموذج مع الصواب، لكنها تفشل بشكل كارثي عند عدم التطابق. ومن خلال تجارب منهجية، نبيّن أن المكافآت الكامنة تتبع نمطًا ثابتًا من الارتفاع ثم الانخفاض عبر مختلف الأساليب، حيث يتحدد توقيت الانهيار بواسطة التوزيع المسبق للنموذج (model prior) وليس بالخيارات الهندسية.ورغم هذه الحدود في قابلية التوسع، نكتشف أن المكافآت الكامنة تظل ذات قيمة في التدريب وقت الاختبار (test-time training) على مجموعات بيانات صغيرة. ونقترح مفهوم "خطوة انهيار النموذج" (Model Collapse Step) لقياس التوزيع المسبق للنموذج، باعتباره مؤشرًا عمليًا لقابلية التدريب عبر التعلم المعزز. وأخيرًا، نستكشف أساليب المكافآت الخارجية التي تستند إلى التحقق من خلال عدم التماثل الحسابي (computational asymmetries)، ونقدّم أدلة أولية على إمكانية تجاوزها لسقف الثقة-الصواب. وتُرسخ نتائجنا حدود الأساليب الكامنة في إطار URLVR، مع تحفيز المسارات نحو بدائل قابلة للتوسع.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا

سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين

مدعوم بواسطة MailChimp

الملخص

Command Palette

إلى أي مدى يمكن لـ RLVR غير الخاضع للإشراف توسيع نطاق تدريب LLM؟

Bingxiang He Yuxin Zuo Zeyuan Liu Shangziqi Zhao Zixuan Fu Junlin Yang Cheng Qian Kaiyan Zhang Yuchen Fan Ganqu Cui11 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

إلى أي مدى يمكن لـ RLVR غير الخاضع للإشراف توسيع نطاق تدريب LLM؟

Bingxiang He Yuxin Zuo Zeyuan Liu Shangziqi Zhao Zixuan Fu Junlin Yang Cheng Qian Kaiyan Zhang Yuchen Fan Ganqu Cui11 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Command Palette

إلى أي مدى يمكن لـ RLVR غير الخاضع للإشراف توسيع نطاق تدريب LLM؟

Bingxiang He Yuxin Zuo Zeyuan Liu Shangziqi Zhao Zixuan Fu Junlin Yang Cheng Qian Kaiyan Zhang Yuchen Fan Ganqu Cui11 more

الملخص

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

HyperAI Newsletters

Bingxiang He Yuxin Zuo Zeyuan Liu Shangziqi Zhao Zixuan Fu Junlin Yang Cheng Qian Kaiyan Zhang Yuchen Fan Ganqu Cui

Bingxiang He Yuxin Zuo Zeyuan Liu Shangziqi Zhao Zixuan Fu Junlin Yang Cheng Qian Kaiyan Zhang Yuchen Fan Ganqu Cui

Bingxiang He Yuxin Zuo Zeyuan Liu Shangziqi Zhao Zixuan Fu Junlin Yang Cheng Qian Kaiyan Zhang Yuchen Fan Ganqu Cui