Command Palette
Search for a command to run...
GRPO المُدرِك للاستدلال باستخدام مناجم العمليات
GRPO المُدرِك للاستدلال باستخدام مناجم العمليات
Taekhyun Park Yongjae Lee Hyerim Bae
الملخص
لقد كان التعلم بالتعزيز (RL) القائم على التدريب اللاحق حاسمًا في تمكين النماذج الكبيرة المُتَفَكِّرة (LRMs) من إجراء استنتاجات متعددة الخطوات، غير أن نماذج المكافآت الحالية تُركّز عادةً على النتائج النهائية. نُقدّم نموذج PM4GRPO، وهو تحسين لخوارزمية تحسين السياسة النسبية المجموعة (GRPO) يراعي عملية التفكير، يُكمل المكافآت القياسية المتعلقة بالإجابة والصيغة بمؤشرات تُقاس على مسار التفكير. ولتحقيق ذلك، تُستخدَم تقنيات تحليل العمليات (process mining) لحساب مكافأة مُتَنَاسِقة قياسية (conformance reward) تقيس مدى اتساق تفكير نموذج السياسة مع نموذج المُعلِّم المُدرَّب مسبقًا. تُظهر النتائج التجريبية على خمسة معايير أداء أن PM4GRPO يتفوّق بشكل ملحوظ على الطرق الحالية المبنية على GRPO في التدريب اللاحق. وتُبرز هذه النتائج أن الاستفادة من تحليل العمليات في تطوير نماذج GRPO التي تراعي عملية التفكير تُسهم بشكل فعّال في تحسين قدرات التفكير لدى نماذج السياسة.