il y a un mois

ExGRPO : Apprendre à raisonner à partir de l'expérience

Runzhe Zhan Yafu Li Zhi Wang Xiaoye Qu Dongrui Liu Jing Shao Derek F. Wong Yu Cheng

Résumé

L’apprentissage par renforcement à partir de récompenses vérifiables (RLVR, Reinforcement Learning from Verifiable Rewards) est un paradigme émergent visant à améliorer les capacités de raisonnement des grands modèles linguistiques. Toutefois, l’entraînement classique en politique en ligne (on-policy) rejette les expériences générées lors des échantillonnages (rollouts) après une seule mise à jour, ce qui entraîne une inefficacité computationnelle et une instabilité. Bien que les travaux antérieurs en apprentissage par renforcement aient mis en évidence les avantages de la réutilisation des expériences passées, le rôle des caractéristiques de ces expériences dans la dynamique d’apprentissage des grands modèles de raisonnement reste peu exploré. Dans cet article, nous sommes les premiers à étudier ce qui rend une expérience de raisonnement précieuse, en identifiant la correction du rollout et l’entropie comme des indicateurs efficaces de la valeur de l’expérience. À partir de ces observations, nous proposons ExGRPO (Experiential Group Relative Policy Optimization), un cadre qui organise et priorise les expériences les plus pertinentes, et qui utilise une fonction objectif mixte de politique pour équilibrer exploration et exploitation des expériences. Des expériences menées sur cinq modèles de base (1,5 à 8 milliards de paramètres) montrent que ExGRPO améliore de manière cohérente les performances de raisonnement sur des benchmarks mathématiques et généraux, avec une augmentation moyenne de +3,5 points et +7,6 points respectivement par rapport à l’approche RLVR en politique en ligne. En outre, ExGRPO stabilise l’entraînement, tant sur des modèles plus puissants que sur des modèles plus faibles, là où les méthodes en politique en ligne échouent. Ces résultats mettent en lumière la gestion structurée des expériences comme un élément clé pour un RLVR efficace et évolutif.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA

GPU prêts à utiliser

Meilleurs prix

Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

ExGRPO : Apprendre à raisonner à partir de l'expérience

Runzhe Zhan Yafu Li Zhi Wang Xiaoye Qu Dongrui Liu Jing Shao Derek F. Wong Yu Cheng

Résumé

Construire l'IA avec l'IA

Hyper Newsletters