HyperAIHyperAI

Command Palette

Search for a command to run...

منذ شهر واحد

MAPO: تحسين السياسة بالميزة المختلطة

MAPO: تحسين السياسة بالميزة المختلطة

الملخص

أحدث التطورات في التعلم المعزز لنموذج الأساس، مثل خوارزمية التحسين النسبي المجموعة (GRPO)، ساهمت بشكل كبير في تحسين أداء نماذج الأساس في المهام الاستدلالية. وتجدر الإشارة إلى أن دالة الميزة تُعد آلية مركزية في خوارزمية GRPO لتصنيف أهمية المسارات. ومع ذلك، تواجه الدراسات الحالية مشكلتين رئيسيتين: ظاهرة انعكاس الميزة (advantage reversion) وظاهرة انعكاس الميزة (advantage mirror)، اللتان تعيقان توزيع الميزة بشكل معقول على عينات الاستفسار المختلفة. في هذا العمل، نقترح استراتيجية GRPO بسيطة ولكن فعالة، تُسمى تحسين السياسة المختلطة بالميزة (MAPO). ونُظهر أن المسار يظهر بدرجات مختلفة من اليقين، ونُقدّم مفهوم "انحراف النسبة المئوية للميزة" لعينات المسارات ذات اليقين العالي. علاوة على ذلك، نُعيد توزين دالة الميزة ديناميكيًا حسب مستوى يقين المسار لكل عينة، مما يتيح تهيئة تلقائية لدالة الميزة بما يتناسب مع الخصائص المميزة لكل عينة. وتشير المقارنة مع الطرق الرائدة ذات الصلة، بالإضافة إلى دراسات التحليل التجريبي (ablation studies) على مختلف أنواع دوال الميزة، إلى فعالية النهج المُقترح.

بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة المشتركة بالذكاء الاصطناعي
وحدات معالجة رسومات جاهزة
أفضل الأسعار
ابدأ الآن

Hyper Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp
MAPO: تحسين السياسة بالميزة المختلطة | الأوراق البحثية | HyperAI