HyperAIHyperAI

Command Palette

Search for a command to run...

إلى أي مدى يمكن لـ RLVR غير الخاضع للإشراف توسيع نطاق تدريب LLM؟

الملخص

يُعد التعلم المعزز غير الخاضع للإشراف مع مكافآت قابلة للتحقق (URLVR) مسارًا لتمكين التوسع في تدريب نماذج اللغات الكبيرة (LLMs) يتجاوز عنق الزجاجة الناجم عن الحاجة إلى الإشراف، وذلك من خلال استنتاج المكافآت دون الاعتماد على تسميات مرجعية حقيقية. وتستفيد الأعمال البحثية الحديثة من الإشارات الكامنة في النموذج نفسه، مُظهرًا مكاسب مبكرة واعدة، غير أن إمكاناته وحدوده لا تزال غير واضحة. وفي هذا العمل، نعيد النظر في منهجية URLVR ونقدم تحليلًا شاملاً يمتد إلى التصنيف التصنيفي، والأساس النظري، وسلسلة واسعة من التجارب.نصنّف أولاً أساليب URLVR إلى فئتين: الأساليب المعتمدة على الإشارات الكامنة (intrinsic) وتلك المعتمدة على إشارات خارجية، وذلك بناءً على مصادر المكافآت. ثم نؤسس إطارًا نظريًا موحدًا يُظهر أن جميع الأساليب الكامنة تتقارب نحو حدة توزيع النموذج الأولي. وتنجح آلية الحدة هذه عندما يتطابق الثقة الأولية للنموذج مع الصواب، لكنها تفشل بشكل كارثي عند عدم التطابق. ومن خلال تجارب منهجية، نبيّن أن المكافآت الكامنة تتبع نمطًا ثابتًا من الارتفاع ثم الانخفاض عبر مختلف الأساليب، حيث يتحدد توقيت الانهيار بواسطة التوزيع المسبق للنموذج (model prior) وليس بالخيارات الهندسية.ورغم هذه الحدود في قابلية التوسع، نكتشف أن المكافآت الكامنة تظل ذات قيمة في التدريب وقت الاختبار (test-time training) على مجموعات بيانات صغيرة. ونقترح مفهوم "خطوة انهيار النموذج" (Model Collapse Step) لقياس التوزيع المسبق للنموذج، باعتباره مؤشرًا عمليًا لقابلية التدريب عبر التعلم المعزز. وأخيرًا، نستكشف أساليب المكافآت الخارجية التي تستند إلى التحقق من خلال عدم التماثل الحسابي (computational asymmetries)، ونقدّم أدلة أولية على إمكانية تجاوزها لسقف الثقة-الصواب. وتُرسخ نتائجنا حدود الأساليب الكامنة في إطار URLVR، مع تحفيز المسارات نحو بدائل قابلة للتوسع.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp