Command Palette
Search for a command to run...

الملخص
أحدث التطورات في التعلم المعزز لنموذج الأساس، مثل خوارزمية التحسين النسبي المجموعة (GRPO)، ساهمت بشكل كبير في تحسين أداء نماذج الأساس في المهام الاستدلالية. وتجدر الإشارة إلى أن دالة الميزة تُعد آلية مركزية في خوارزمية GRPO لتصنيف أهمية المسارات. ومع ذلك، تواجه الدراسات الحالية مشكلتين رئيسيتين: ظاهرة انعكاس الميزة (advantage reversion) وظاهرة انعكاس الميزة (advantage mirror)، اللتان تعيقان توزيع الميزة بشكل معقول على عينات الاستفسار المختلفة. في هذا العمل، نقترح استراتيجية GRPO بسيطة ولكن فعالة، تُسمى تحسين السياسة المختلطة بالميزة (MAPO). ونُظهر أن المسار يظهر بدرجات مختلفة من اليقين، ونُقدّم مفهوم "انحراف النسبة المئوية للميزة" لعينات المسارات ذات اليقين العالي. علاوة على ذلك، نُعيد توزين دالة الميزة ديناميكيًا حسب مستوى يقين المسار لكل عينة، مما يتيح تهيئة تلقائية لدالة الميزة بما يتناسب مع الخصائص المميزة لكل عينة. وتشير المقارنة مع الطرق الرائدة ذات الصلة، بالإضافة إلى دراسات التحليل التجريبي (ablation studies) على مختلف أنواع دوال الميزة، إلى فعالية النهج المُقترح.
بناء الذكاء الاصطناعي بالذكاء الاصطناعي
من الفكرة إلى الإطلاق — عجّل تطوير الذكاء الاصطناعي الخاص بك من خلال البرمجة المشتركة المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.