HyperAIHyperAI

Command Palette

Search for a command to run...

تقدير الميزة الكوانتيلية للتقييم الآمن للإنتروبيا

Junkang Wu Kexin Huang Jiancan Wu An Zhang Xiang Wang Xiangnan He

الملخص

يُعزز التعلم بالتعزيز مع المكافآت القابلة للتحقق (RLVR) قدرة النماذج اللغوية الكبيرة (LLM) على التفكير المنطقي، لكن عملية التدريب غالبًا ما تتسم بالتذبذب بين ظاهرتي "انهيار الانتروبيا" و"انفجار الانتروبيا". نُحدّد كلا الخطرَين بوصفهما ناتجين عن استخدام الأساس المتوسط في خوارزميات التعلم بالتعزيز الخالية من القيمة (مثل GRPO وDAPO)، التي تُطبّق عقوبة غير صحيحة على العينات ذات الميزة السلبية في ظل وجود قيم مكافآت شاذة. نقترح تقنية تُسمى "تقدير الميزة الرتيبة" (QAE)، التي تُستبدل بها الأساس المتوسط بقاعدة رتيبة متعددة المجموعات (K-quantile) مُحددة لكل مجموعة. تُولّد QAE بوابة ثنائية النمط على مستوى الاستجابة: في الأسئلة الصعبة (عندما يكون p ≤ 1 - K)، تُعزّز النجاحات النادرة، بينما في الأسئلة السهلة (عندما يكون p > 1 - K)، تُركّز على الفشل المتبقي. وباستخدام تحديثات الدرجة الأولى لدالة سويفت (softmax)، نُثبت خاصية "الأمان الانتروبي ثنائي الجانب"، التي تُقدّم حدودًا سفلية وعلوية لتغير الانتروبيا في خطوة واحدة، مما يُقلّل من خطر الانفجار ويُمنع الانهيار. من الناحية التجريبية، تُعدّ هذه التعديلات البسيطة كافية لاستقرار الانتروبيا، وتفصيل توزيع المسؤولية (مع ضبط K، تتلقى حوالي 80% من الاستجابات ميزة صفرية)، وتُحقّق مكاسب مستدامة في مؤشر pass@1 على نموذج Qwen3-8B/14B-Base عبر مسابقات AIME 2024/2025 وAMC 2023. تُشير هذه النتائج إلى أن "تصميم الأساس" (baseline design) – وليس الاستراتيجيات المُستندة إلى مستوى الرموز (token-level heuristics) – هو المُحرّك الرئيسي لتوسيع نطاق تطبيق RLVR.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp