Command Palette
Search for a command to run...
GRPO conscient des raisonnements utilisant le mining de processus
GRPO conscient des raisonnements utilisant le mining de processus
Taekhyun Park Yongjae Lee Hyerim Bae
Résumé
L’apprentissage par renforcement (RL) basé sur le post-entraînement a joué un rôle essentiel dans la mise en œuvre du raisonnement en plusieurs étapes dans les grands modèles de raisonnement (LRM), mais les schémas de récompense actuels sont généralement centrés sur les résultats. Nous proposons PM4GRPO, une optimisation de politique relative par groupe (GRPO) consciente du raisonnement, qui enrichit les récompenses standard sur la réponse et le format par des signaux issus du processus de raisonnement. À cette fin, des techniques d’extraction de processus (process mining) sont utilisées pour calculer une récompense scalaire de conformité, mesurant la proximité entre le raisonnement d’un modèle politique et celui du modèle enseignant pré-entraîné. Les résultats expérimentaux sur cinq benchmarks démontrent que PM4GRPO surpasse de manière significative les méthodologies existantes pour le post-entraînement basé sur GRPO. Ces résultats mettent en évidence que l’exploitation de l’extraction de processus pour une GRPO consciente du raisonnement améliore efficacement les capacités de raisonnement des modèles politiques.