منذ 9 أيام

الرباط غير المرئي: لماذا قد لا يمكن لـ RLVR الهروب من أصله

Fang Wu, Weihao Xuan, Ximing Lu, Zaid Harchaoui, Yejin Choi

الملخص

أظهرت التطورات الأخيرة في نماذج الاستدلال الكبيرة أن التعلم بالتعزيز مع المكافآت القابلة للتحقق (RLVR) يُعد من الأساليب الواعدة لتعزيز قدرات الذكاء الاصطناعي، خاصة في حل المهام المنطقية المعقدة. ومع ذلك، لا تزال هناك مخاوف حول ما إذا كان RLVR يوسع حقًا حدود استدلال النموذج أم أنه يزيد فقط من إخراج الحلول ذات المكافأة العالية التي يمتلكها النموذج الأساسي، بهدف تحسين الدقة. تقدم هذه الدراسة تحليلًا نظريًا وتجريبيًا يوفر رؤى جديدة حول الحدود المحتملة لـ RLVR. أولاً، نقدّم منظورًا نظريًا جديدًا يشير إلى أن RLVR محدود بدعم النموذج الأساسي، ولا يمكنه عينة حلول لها احتمال أولي صفر، ويقوم بآلية إعادة توزيع معتدلة قد تحد من اكتشاف حلول جديدة تمامًا. كما نحدد أيضًا توازنًا بين الإنتروبيا والمكافأة: بينما يعزز RLVR بشكل موثوق دقة الإخراج، فإنه قد يضيق تدريجيًا نطاق الاستكشاف، ويُهمل حلولًا صحيحة لكنها غير ممثلة بشكل كافٍ. تؤكد التجارب العملية المكثفة أن RLVR يحسن بشكل مستمر مقياس "pass@1"، لكن تقلص دعم التجربة عادة يتفوق على توسعه تحت أوضاع توليد عينات كبيرة، مما يؤدي إلى فشل استعادة الإجابات الصحيحة التي كانت متوفرة سابقًا للنموذج الأساسي. من المثير للاهتمام أننا لاحظنا أيضًا أن RLVR قد يزيد من الإنتروبيا على مستوى الرموز (token-level entropy)، مما يؤدي إلى زيادة عدم اليقين في كل خطوة من خطوات الإنتاج، ولكن الإنتروبيا على مستوى الإجابة (answer-level entropy) تنخفض، مما يشير إلى أن هذه الطرق التي تبدو أكثر عدم يقينًا تصل في النهاية إلى مجموعة أصغر من الإجابات المميزة. جمعًا، تُظهر هذه النتائج الحدود المحتملة لـ RLVR في توسيع آفاق الاستدلال. لتجاوز هذا الحد، قد يتطلب الأمر ابتكارات خوارزمية مستقبلية، مثل آليات الاستكشاف الصريحة أو استراتيجيات هجينة تُضيف كثافة احتمالية إلى مناطق الحلول غير الممثلة.