HyperAIHyperAI

Command Palette

Search for a command to run...

MAPO: تحسين السياسة بالميزة المختلطة

الملخص

أحدث التطورات في التعلم المعزز لنموذج الأساس، مثل خوارزمية التحسين النسبي المجموعة (GRPO)، ساهمت بشكل كبير في تحسين أداء نماذج الأساس في المهام الاستدلالية. وتجدر الإشارة إلى أن دالة الميزة تُعد آلية مركزية في خوارزمية GRPO لتصنيف أهمية المسارات. ومع ذلك، تواجه الدراسات الحالية مشكلتين رئيسيتين: ظاهرة انعكاس الميزة (advantage reversion) وظاهرة انعكاس الميزة (advantage mirror)، اللتان تعيقان توزيع الميزة بشكل معقول على عينات الاستفسار المختلفة. في هذا العمل، نقترح استراتيجية GRPO بسيطة ولكن فعالة، تُسمى تحسين السياسة المختلطة بالميزة (MAPO). ونُظهر أن المسار يظهر بدرجات مختلفة من اليقين، ونُقدّم مفهوم "انحراف النسبة المئوية للميزة" لعينات المسارات ذات اليقين العالي. علاوة على ذلك، نُعيد توزين دالة الميزة ديناميكيًا حسب مستوى يقين المسار لكل عينة، مما يتيح تهيئة تلقائية لدالة الميزة بما يتناسب مع الخصائص المميزة لكل عينة. وتشير المقارنة مع الطرق الرائدة ذات الصلة، بالإضافة إلى دراسات التحليل التجريبي (ablation studies) على مختلف أنواع دوال الميزة، إلى فعالية النهج المُقترح.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp