HyperAIHyperAI

Command Palette

Search for a command to run...

الرباط غير المرئي: لماذا قد لا يمكن لـ RLVR الهروب من أصله

Fang Wu Weihao Xuan Ximing Lu Zaid Harchaoui Yejin Choi

الملخص

أظهرت التطورات الأخيرة في نماذج الاستدلال الكبيرة أن التعلم بالتعزيز مع المكافآت القابلة للتحقق (RLVR) يُعد من الأساليب الواعدة لتعزيز قدرات الذكاء الاصطناعي، خاصة في حل المهام المنطقية المعقدة. ومع ذلك، لا تزال هناك مخاوف حول ما إذا كان RLVR يوسع حقًا حدود استدلال النموذج أم أنه يزيد فقط من إخراج الحلول ذات المكافأة العالية التي يمتلكها النموذج الأساسي، بهدف تحسين الدقة. تقدم هذه الدراسة تحليلًا نظريًا وتجريبيًا يوفر رؤى جديدة حول الحدود المحتملة لـ RLVR. أولاً، نقدّم منظورًا نظريًا جديدًا يشير إلى أن RLVR محدود بدعم النموذج الأساسي، ولا يمكنه عينة حلول لها احتمال أولي صفر، ويقوم بآلية إعادة توزيع معتدلة قد تحد من اكتشاف حلول جديدة تمامًا. كما نحدد أيضًا توازنًا بين الإنتروبيا والمكافأة: بينما يعزز RLVR بشكل موثوق دقة الإخراج، فإنه قد يضيق تدريجيًا نطاق الاستكشاف، ويُهمل حلولًا صحيحة لكنها غير ممثلة بشكل كافٍ. تؤكد التجارب العملية المكثفة أن RLVR يحسن بشكل مستمر مقياس "pass@1"، لكن تقلص دعم التجربة عادة يتفوق على توسعه تحت أوضاع توليد عينات كبيرة، مما يؤدي إلى فشل استعادة الإجابات الصحيحة التي كانت متوفرة سابقًا للنموذج الأساسي. من المثير للاهتمام أننا لاحظنا أيضًا أن RLVR قد يزيد من الإنتروبيا على مستوى الرموز (token-level entropy)، مما يؤدي إلى زيادة عدم اليقين في كل خطوة من خطوات الإنتاج، ولكن الإنتروبيا على مستوى الإجابة (answer-level entropy) تنخفض، مما يشير إلى أن هذه الطرق التي تبدو أكثر عدم يقينًا تصل في النهاية إلى مجموعة أصغر من الإجابات المميزة. جمعًا، تُظهر هذه النتائج الحدود المحتملة لـ RLVR في توسيع آفاق الاستدلال. لتجاوز هذا الحد، قد يتطلب الأمر ابتكارات خوارزمية مستقبلية، مثل آليات الاستكشاف الصريحة أو استراتيجيات هجينة تُضيف كثافة احتمالية إلى مناطق الحلول غير الممثلة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
الرباط غير المرئي: لماذا قد لا يمكن لـ RLVR الهروب من أصله | مستندات | HyperAI