Command Palette
Search for a command to run...
Junkang Wu Kexin Huang Jiancan Wu An Zhang Xiang Wang Xiangnan He

الملخص
يُعزز التعلم بالتعزيز مع المكافآت القابلة للتحقق (RLVR) قدرة النماذج اللغوية الكبيرة (LLM) على التفكير المنطقي، لكن عملية التدريب غالبًا ما تتسم بالتذبذب بين ظاهرتي "انهيار الانتروبيا" و"انفجار الانتروبيا". نُحدّد كلا الخطرَين بوصفهما ناتجين عن استخدام الأساس المتوسط في خوارزميات التعلم بالتعزيز الخالية من القيمة (مثل GRPO وDAPO)، التي تُطبّق عقوبة غير صحيحة على العينات ذات الميزة السلبية في ظل وجود قيم مكافآت شاذة. نقترح تقنية تُسمى "تقدير الميزة الرتيبة" (QAE)، التي تُستبدل بها الأساس المتوسط بقاعدة رتيبة متعددة المجموعات (K-quantile) مُحددة لكل مجموعة. تُولّد QAE بوابة ثنائية النمط على مستوى الاستجابة: في الأسئلة الصعبة (عندما يكون p ≤ 1 - K)، تُعزّز النجاحات النادرة، بينما في الأسئلة السهلة (عندما يكون p > 1 - K)، تُركّز على الفشل المتبقي. وباستخدام تحديثات الدرجة الأولى لدالة سويفت (softmax)، نُثبت خاصية "الأمان الانتروبي ثنائي الجانب"، التي تُقدّم حدودًا سفلية وعلوية لتغير الانتروبيا في خطوة واحدة، مما يُقلّل من خطر الانفجار ويُمنع الانهيار. من الناحية التجريبية، تُعدّ هذه التعديلات البسيطة كافية لاستقرار الانتروبيا، وتفصيل توزيع المسؤولية (مع ضبط K، تتلقى حوالي 80% من الاستجابات ميزة صفرية)، وتُحقّق مكاسب مستدامة في مؤشر pass@1 على نموذج Qwen3-8B/14B-Base عبر مسابقات AIME 2024/2025 وAMC 2023. تُشير هذه النتائج إلى أن "تصميم الأساس" (baseline design) – وليس الاستراتيجيات المُستندة إلى مستوى الرموز (token-level heuristics) – هو المُحرّك الرئيسي لتوسيع نطاق تطبيق RLVR.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.