HyperAIHyperAI

Command Palette

Search for a command to run...

il y a un mois

La notation de politique aléatoire suffit pour le raisonnement des LLM avec des récompenses vérifiables

Haoran He Yuxiao Ye Qingpeng Cai Chen Hu Binxing Jiao Daxin Jiang Ling Pan

La notation de politique aléatoire suffit pour le raisonnement des LLM avec des récompenses vérifiables

Résumé

L’apprentissage par renforcement à récompenses vérifiables (RLVR, Reinforcement Learning with Verifiable Rewards) s’est imposé comme un paradigme prometteur pour améliorer les capacités de raisonnement des grands modèles linguistiques (LLM). Les méthodes actuelles s’appuient principalement sur des cadres d’optimisation de politique tels que PPO (Proximal Policy Optimization) ou GRPO, qui suivent une itération de politique généralisée, alternant entre l’évaluation de la valeur de la politique actuelle et son amélioration fondée sur cette évaluation. Bien que ces approches soient efficaces, elles souffrent fréquemment d’instabilité d’apprentissage et d’un effondrement de la diversité, nécessitant des astuces heuristiques complexes et un réglage soigneux. Nous observons que le RLVR standard dans le raisonnement mathématique peut être formalisé comme un processus de décision markovien à horizon fini spécialisé, caractérisé par des transitions d’état déterministes, une dynamique en arbre et des récompenses terminales binaires. Bien que d’une grande ampleur, cette structure sous-jacente est plus simple que les cadres de contrôle généralistes pour lesquels les algorithmes de RL populaires (tels que PPO) ont été conçus, ce qui suggère que plusieurs techniques sophistiquées des méthodes existantes pourraient être simplifiées voire supprimées. À partir de cette observation, nous prouvons un résultat surprenant : l’action optimale peut être récupérée à partir de la fonction Q d’une politique uniformément aléatoire fixe, permettant ainsi de contourner la boucle d’itération de politique généralisée et les heuristiques associées. Nous introduisons ROVER (Random Policy Valuation for Diverse Reasoning), une méthode concrète et évolutif pour le raisonnement mathématique des LLM, fondée sur ce principe. Il s’agit d’une approche de RL minimaliste mais hautement efficace, qui échantillonne les actions selon une loi softmax appliquée aux valeurs Q issues de cette politique aléatoire uniforme. ROVER préserve la diversité tout au long de l’apprentissage, permettant une exploration soutenue de multiples chemins valides. Sur plusieurs modèles de base et benchmarks standards de raisonnement mathématique, ROVER affiche des performances supérieures en termes de qualité (+8,2 en pass@1, +16,8 en pass@256) et de diversité (+17,6 %), malgré sa simplification radicale par rapport aux méthodes existantes, souvent complexes et performantes.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
La notation de politique aléatoire suffit pour le raisonnement des LLM avec des récompenses vérifiables | Articles de recherche | HyperAI