Command Palette
Search for a command to run...
النماذج اللغوية المتغيرة دون تسميات: يُوجِّه الأغلبية الاختيار، ويشجع التميز على التباين
Yujun Zhou Zhenwen Liang Haolin Liu Wenhao Yu Kishan Panaganti Linfeng Song Dian Yu Xiangliang Zhang Haitao Mi Dong Yu

الملخص
تُدرَّب النماذج اللغوية الكبيرة (LLMs) بشكل متزايد باستخدام التعلم بالتعزيز من خلال مكافآت قابلة للتحقق (RLVR)، ومع ذلك، تتطلب التطبيقات الواقعية نماذج قادرة على التحسين الذاتي دون الحاجة إلى تسميات أو مُقيّمين خارجيين. تُعد الطرق الحالية الخالية من التسميات، مثل تقليل الثقة، أو التماسك الذاتي، أو الأهداف القائمة على التصويت الأغلبي، فعّالة في استقرار التعلم، لكنها تؤدي تدريجيًا إلى تقلص الاستكشاف، ما يُسبب انهيارًا في الإنتروبيا: إذ تصبح النتائج أقصر، وأقل تنوعًا، وأكثر هشاشة. على عكس النهج السابقة مثل التعلم بالتعزيز في وقت الاختبار (TTRL)، التي تركز في المقام الأول على تعديل النموذج ليتناسب مع مجموعة البيانات غير المُعلّمة الحالية، فإن هدفنا أوسع: تمكين تحسينات عامة دون التضحية بالقدرة المُتأصلة للنموذج على الاستكشاف والقدرة على التعميم، أي تطويره تطورًا مستمرًا. نُصِف هذه المشكلة بشكل رمزي، ونُقدّم طريقة جديدة تُسمى التعلم بالتعزيز الخالي من التسميات المُوجّه نحو التطور (EVOL-RL)، وهي قاعدة بسيطة تُرافق الاستقرار بالتباين ضمن بيئة خالية من التسميات. تُحافظ EVOL-RL على الإجابة المُختارة بالأغلبية كمُعَيّن مستقر (الاختيار)، مع إضافة مكافأة واعية بالجدة تُفضّل الإجابات التي تختلف في استنتاجاتها عن ما تم إنتاجه سابقًا (التباين)، ويُقاس هذا التباين في الفضاء الدلالي. عند تنفيذها باستخدام GRPO، تُستخدم EVOL-RL أيضًا تقنية قص غير متماثلة للحفاظ على الإشارات القوية، وعامل تنظيم الإنتروبيا للحفاظ على عملية البحث. إن تصميم "الأغلبية للاختيار + الجدة للتنوع" يُمنع الانهيار، ويُحافظ على سلاسل تفكير أطول وأكثر إفادة، ويُحسّن كلا القياسين: pass@1 وpass@n. وتُفوق EVOL-RL باستمرار النموذج الأساسي الذي يعتمد فقط على الأغلبية (TTRL)؛ على سبيل المثال، عند التدريب على مجموعة AIME24 الخالية من التسميات، ترتفع نسبة النجاح (pass@1) لنموذج Qwen3-4B-Base في AIME25 من 4.6% (عند استخدام TTRL) إلى 16.4%، وترتفع نسبة pass@16 من 18.5% إلى 37.9%. لا تُقلل EVOL-RL فقط من خطر انهيار التنوّع، بل تُمكّن أيضًا من تحسين أداء التعميم على نطاق واسع (مثل GPQA). علاوةً على ذلك، نُظهر أن EVOL-RL تُحسّن الأداء أيضًا في البيئة التي تعتمد على التعلم بالتعزيز من خلال مكافآت قابلة للتحقق (RLVR)، مما يُبرز مدى تطبيقها الواسع.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.