هل يشجع التعلم المعزز بالفعل على قدرة التفكير في نماذج لغة كبيرة أبعد من النموذج الأساسي؟
Yang Yue Zhiqi Chen Rui Lu Andrew Zhao Zhaokai Wang Shiji Song Yang Yue Gao Huang

الملخص
أظهرت تقنية التعلم بالتعزيز ذات المكافآت القابلة للتحقق (RLVR) مؤخرًا نجاحًا ملحوظًا في تحسين أداء النماذج اللغوية الكبيرة (LLMs) في التفكير المنطقي، خصوصًا في المهام الرياضية والبرمجة. ويعتقد على نطاق واسع أن RLVR، تمامًا كما يساعد التعلم بالتعزيز التقليدي الوكلاء على استكشاف استراتيجيات جديدة وتعلّمها، يمكّن النماذج اللغوية الكبيرة من التحسين الذاتي المستمر، وبالتالي اكتساب قدرات تفكير جديدة تفوق القدرات المتوفرة في النماذج الأساسية المُعتمدة عليها. في هذه الدراسة، نتّخذ نظرة نقدية على الحالة الحالية لـ RLVR من خلال التحقيق المنهجي في حدود القدرة التفكيرية للنماذج اللغوية الكبيرة المدربة بـ RLVR، عبر مجموعات متنوعة من النماذج، وخوارزميات التعلم بالتعزيز، و benchmarks متنوعة تشمل التفكير الرياضي، والبرمجة، والتفكير البصري، باستخدام معيار التقييم "pass@k" عند قيم كبيرة لـ k. ورغم أن RLVR يُحسّن كفاءة العينة نحو المسار الصحيح، فإننا نلاحظ بشكل مفاجئ أن التدريب الحالي لا يُحفّز على ظهور أنماط تفكير جوهرية جديدة. ونلاحظ أن النماذج المدربة بـ RLVR تتفوّق على نماذجها الأساسية عند قيم صغيرة لـ k (مثل k=1)، لكن النماذج الأساسية تحقق درجات أعلى في "pass@k" عند استخدام قيم كبيرة لـ k. علاوةً على ذلك، نلاحظ أن حدود القدرة التفكيرية للنماذج اللغوية الكبيرة تضيق غالبًا مع تقدّم تدريب RLVR. وتبين تحليلات التغطية (coverage) والالتباس (perplexity) أن المسارات التفكيرية التي تُولّدها نماذج RLVR كانت مُحتَمَلة مسبقًا ضمن توزيع العينات الخاص بالنماذج الأساسية، مما يشير إلى أن قدرات التفكير هذه تنبع من النموذج الأساسي، وتخضع لقيوده. ومن هذا المنظور، وباعتبار النموذج الأساسي كحد أعلى، تُظهر تحليلاتنا الكمية أن ست خوارزميات شائعة لـ RLVR أداءً متشابهًا، وجميعها ما زالت بعيدة جدًا عن الاستفادة الكاملة من الإمكانات المتوفرة في النموذج الأساسي. في المقابل، نجد أن تقنية التقطيع (distillation) يمكن أن تُدخل أنماط تفكير جديدة من النموذج المُعلّم (المحاضر)، وتوسّع فعليًا قدرات النموذج التفكيرية. وبشكل عام، تشير نتائجنا إلى أن الطرق الحالية لـ RLVR لم تُحقّق بعد الإمكانات الكاملة للتعلم بالتعزيز في إثارة قدرات تفكير حقيقية جديدة في النماذج اللغوية الكبيرة. وهذا يُبرز الحاجة إلى تطوير نماذج تعلم بالتعزيز المُحسّنة، مثل التوسع المستمر (continual scaling) وتفاعل الوكيل-البيئة متعدّد الجولات (multi-turn agent-environment interaction)، لاستكشاف هذه الإمكانات.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.