Command Palette
Search for a command to run...
إلى أي مدى يمكن لـ RLVR غير الخاضع للإشراف توسيع نطاق تدريب LLM؟
إلى أي مدى يمكن لـ RLVR غير الخاضع للإشراف توسيع نطاق تدريب LLM؟
الملخص
يُعد التعلم المعزز غير الخاضع للإشراف مع مكافآت قابلة للتحقق (URLVR) مسارًا لتمكين التوسع في تدريب نماذج اللغات الكبيرة (LLMs) يتجاوز عنق الزجاجة الناجم عن الحاجة إلى الإشراف، وذلك من خلال استنتاج المكافآت دون الاعتماد على تسميات مرجعية حقيقية. وتستفيد الأعمال البحثية الحديثة من الإشارات الكامنة في النموذج نفسه، مُظهرًا مكاسب مبكرة واعدة، غير أن إمكاناته وحدوده لا تزال غير واضحة. وفي هذا العمل، نعيد النظر في منهجية URLVR ونقدم تحليلًا شاملاً يمتد إلى التصنيف التصنيفي، والأساس النظري، وسلسلة واسعة من التجارب.نصنّف أولاً أساليب URLVR إلى فئتين: الأساليب المعتمدة على الإشارات الكامنة (intrinsic) وتلك المعتمدة على إشارات خارجية، وذلك بناءً على مصادر المكافآت. ثم نؤسس إطارًا نظريًا موحدًا يُظهر أن جميع الأساليب الكامنة تتقارب نحو حدة توزيع النموذج الأولي. وتنجح آلية الحدة هذه عندما يتطابق الثقة الأولية للنموذج مع الصواب، لكنها تفشل بشكل كارثي عند عدم التطابق. ومن خلال تجارب منهجية، نبيّن أن المكافآت الكامنة تتبع نمطًا ثابتًا من الارتفاع ثم الانخفاض عبر مختلف الأساليب، حيث يتحدد توقيت الانهيار بواسطة التوزيع المسبق للنموذج (model prior) وليس بالخيارات الهندسية.ورغم هذه الحدود في قابلية التوسع، نكتشف أن المكافآت الكامنة تظل ذات قيمة في التدريب وقت الاختبار (test-time training) على مجموعات بيانات صغيرة. ونقترح مفهوم "خطوة انهيار النموذج" (Model Collapse Step) لقياس التوزيع المسبق للنموذج، باعتباره مؤشرًا عمليًا لقابلية التدريب عبر التعلم المعزز. وأخيرًا، نستكشف أساليب المكافآت الخارجية التي تستند إلى التحقق من خلال عدم التماثل الحسابي (computational asymmetries)، ونقدّم أدلة أولية على إمكانية تجاوزها لسقف الثقة-الصواب. وتُرسخ نتائجنا حدود الأساليب الكامنة في إطار URLVR، مع تحفيز المسارات نحو بدائل قابلة للتوسع.