الملخص

أحدث التطورات في التعلم المعزز لنموذج الأساس، مثل خوارزمية التحسين النسبي المجموعة (GRPO)، ساهمت بشكل كبير في تحسين أداء نماذج الأساس في المهام الاستدلالية. وتجدر الإشارة إلى أن دالة الميزة تُعد آلية مركزية في خوارزمية GRPO لتصنيف أهمية المسارات. ومع ذلك، تواجه الدراسات الحالية مشكلتين رئيسيتين: ظاهرة انعكاس الميزة (advantage reversion) وظاهرة انعكاس الميزة (advantage mirror)، اللتان تعيقان توزيع الميزة بشكل معقول على عينات الاستفسار المختلفة. في هذا العمل، نقترح استراتيجية GRPO بسيطة ولكن فعالة، تُسمى تحسين السياسة المختلطة بالميزة (MAPO). ونُظهر أن المسار يظهر بدرجات مختلفة من اليقين، ونُقدّم مفهوم "انحراف النسبة المئوية للميزة" لعينات المسارات ذات اليقين العالي. علاوة على ذلك، نُعيد توزين دالة الميزة ديناميكيًا حسب مستوى يقين المسار لكل عينة، مما يتيح تهيئة تلقائية لدالة الميزة بما يتناسب مع الخصائص المميزة لكل عينة. وتشير المقارنة مع الطرق الرائدة ذات الصلة، بالإضافة إلى دراسات التحليل التجريبي (ablation studies) على مختلف أنواع دوال الميزة، إلى فعالية النهج المُقترح.

ملف PDF المصدر

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي

وحدات GPU جاهزة للعمل

أفضل الأسعار

ابدأ عرض الأسعار