HyperAIHyperAI

Command Palette

Search for a command to run...

GRPO المُدرِك للاستدلال باستخدام مناجم العمليات

Taekhyun Park Yongjae Lee Hyerim Bae

الملخص

لقد كان التعلم بالتعزيز (RL) القائم على التدريب اللاحق حاسمًا في تمكين النماذج الكبيرة المُتَفَكِّرة (LRMs) من إجراء استنتاجات متعددة الخطوات، غير أن نماذج المكافآت الحالية تُركّز عادةً على النتائج النهائية. نُقدّم نموذج PM4GRPO، وهو تحسين لخوارزمية تحسين السياسة النسبية المجموعة (GRPO) يراعي عملية التفكير، يُكمل المكافآت القياسية المتعلقة بالإجابة والصيغة بمؤشرات تُقاس على مسار التفكير. ولتحقيق ذلك، تُستخدَم تقنيات تحليل العمليات (process mining) لحساب مكافأة مُتَنَاسِقة قياسية (conformance reward) تقيس مدى اتساق تفكير نموذج السياسة مع نموذج المُعلِّم المُدرَّب مسبقًا. تُظهر النتائج التجريبية على خمسة معايير أداء أن PM4GRPO يتفوّق بشكل ملحوظ على الطرق الحالية المبنية على GRPO في التدريب اللاحق. وتُبرز هذه النتائج أن الاستفادة من تحليل العمليات في تطوير نماذج GRPO التي تراعي عملية التفكير تُسهم بشكل فعّال في تحسين قدرات التفكير لدى نماذج السياسة.


بناء الذكاء الاصطناعي بالذكاء الاصطناعي

من الفكرة إلى الإطلاق — سرّع تطوير الذكاء الاصطناعي الخاص بك مع المساعدة البرمجية المجانية بالذكاء الاصطناعي، وبيئة جاهزة للاستخدام، وأفضل أسعار لوحدات معالجة الرسومات.

البرمجة التعاونية باستخدام الذكاء الاصطناعي
وحدات GPU جاهزة للعمل
أفضل الأسعار

HyperAI Newsletters

اشترك في آخر تحديثاتنا
سنرسل لك أحدث التحديثات الأسبوعية إلى بريدك الإلكتروني في الساعة التاسعة من صباح كل يوم اثنين
مدعوم بواسطة MailChimp