HyperAIHyperAI

Command Palette

Search for a command to run...

GRPO conscient des raisonnements utilisant le mining de processus

Taekhyun Park Yongjae Lee Hyerim Bae

Résumé

L’apprentissage par renforcement (RL) basé sur le post-entraînement a joué un rôle essentiel dans la mise en œuvre du raisonnement en plusieurs étapes dans les grands modèles de raisonnement (LRM), mais les schémas de récompense actuels sont généralement centrés sur les résultats. Nous proposons PM4GRPO, une optimisation de politique relative par groupe (GRPO) consciente du raisonnement, qui enrichit les récompenses standard sur la réponse et le format par des signaux issus du processus de raisonnement. À cette fin, des techniques d’extraction de processus (process mining) sont utilisées pour calculer une récompense scalaire de conformité, mesurant la proximité entre le raisonnement d’un modèle politique et celui du modèle enseignant pré-entraîné. Les résultats expérimentaux sur cinq benchmarks démontrent que PM4GRPO surpasse de manière significative les méthodologies existantes pour le post-entraînement basé sur GRPO. Ces résultats mettent en évidence que l’exploitation de l’extraction de processus pour une GRPO consciente du raisonnement améliore efficacement les capacités de raisonnement des modèles politiques.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
GRPO conscient des raisonnements utilisant le mining de processus | Articles | HyperAI