HyperAIHyperAI

Command Palette

Search for a command to run...

منذ شهر واحد

تقدير الميزة الكوانتيلية للتقييم الآمن للإنتروبيا

Junkang Wu Kexin Huang Jiancan Wu An Zhang Xiang Wang Xiangnan He

تقدير الميزة الكوانتيلية للتقييم الآمن للإنتروبيا

الملخص

يُعزز التعلم بالتعزيز مع المكافآت القابلة للتحقق (RLVR) قدرة النماذج اللغوية الكبيرة (LLM) على التفكير المنطقي، لكن عملية التدريب غالبًا ما تتسم بالتذبذب بين ظاهرتي "انهيار الانتروبيا" و"انفجار الانتروبيا". نُحدّد كلا الخطرَين بوصفهما ناتجين عن استخدام الأساس المتوسط في خوارزميات التعلم بالتعزيز الخالية من القيمة (مثل GRPO وDAPO)، التي تُطبّق عقوبة غير صحيحة على العينات ذات الميزة السلبية في ظل وجود قيم مكافآت شاذة. نقترح تقنية تُسمى "تقدير الميزة الرتيبة" (QAE)، التي تُستبدل بها الأساس المتوسط بقاعدة رتيبة متعددة المجموعات (K-quantile) مُحددة لكل مجموعة. تُولّد QAE بوابة ثنائية النمط على مستوى الاستجابة: في الأسئلة الصعبة (عندما يكون p ≤ 1 - K)، تُعزّز النجاحات النادرة، بينما في الأسئلة السهلة (عندما يكون p > 1 - K)، تُركّز على الفشل المتبقي. وباستخدام تحديثات الدرجة الأولى لدالة سويفت (softmax)، نُثبت خاصية "الأمان الانتروبي ثنائي الجانب"، التي تُقدّم حدودًا سفلية وعلوية لتغير الانتروبيا في خطوة واحدة، مما يُقلّل من خطر الانفجار ويُمنع الانهيار. من الناحية التجريبية، تُعدّ هذه التعديلات البسيطة كافية لاستقرار الانتروبيا، وتفصيل توزيع المسؤولية (مع ضبط K، تتلقى حوالي 80% من الاستجابات ميزة صفرية)، وتُحقّق مكاسب مستدامة في مؤشر pass@1 على نموذج Qwen3-8B/14B-Base عبر مسابقات AIME 2024/2025 وAMC 2023. تُشير هذه النتائج إلى أن "تصميم الأساس" (baseline design) – وليس الاستراتيجيات المُستندة إلى مستوى الرموز (token-level heuristics) – هو المُحرّك الرئيسي لتوسيع نطاق تطبيق RLVR.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
تقدير الميزة الكوانتيلية للتقييم الآمن للإنتروبيا | الأوراق البحثية | HyperAI