il y a un mois

FlowRL : Aligner les distributions de récompense pour le raisonnement des grands modèles linguistiques

Voir les détails de l'article Voir le code

Xuekai Zhu Daixuan Cheng Dinghuai Zhang Hengli Li Kaiyan Zhang Che Jiang Youbang Sun Ermo Hua Yuxin Zuo Xingtai Lv

FlowRL : Aligner les distributions de récompense pour le raisonnement des grands modèles linguistiques

Résumé

Nous proposons FlowRL : une méthode qui correspond à la distribution complète des récompenses grâce à un équilibrage de flux, plutôt que de maximiser les récompenses dans l’apprentissage par renforcement (RL) des grands modèles linguistiques (LLM). Les modèles récents d’inférence avancés reposent sur des approches de maximisation des récompenses (par exemple, PPO et GRPO), qui ont tendance à sur-optimiser les signaux de récompense dominants tout en négligeant les chemins d’inférence moins fréquents mais tout aussi valides, ce qui réduit la diversité. À l’inverse, nous transformons les récompenses scalaires en une distribution cible normalisée à l’aide d’une fonction de partition apprenable, puis nous minimisons la divergence de KL inverse entre la politique et cette distribution cible. Nous mettons en œuvre cette idée sous la forme d’une méthode d’optimisation équilibrée par flux, qui favorise une exploration diversifiée et des trajectoires d’inférence généralisables. Nous menons des expériences sur des tâches d’inférence mathématique et de programmation : FlowRL obtient une amélioration moyenne significative de 10,0 % par rapport à GRPO et de 5,1 % par rapport à PPO sur les benchmarks mathématiques, et se montre également systématiquement supérieure sur les tâches d’inférence de code. Ces résultats mettent en évidence l’ajustement de la distribution des récompenses comme une étape clé vers une exploration efficace et une inférence diversifiée dans l’apprentissage par renforcement des LLM.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA

GPU prêts à utiliser

Meilleurs prix

Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Command Palette

FlowRL : Aligner les distributions de récompense pour le raisonnement des grands modèles linguistiques

Xuekai Zhu Daixuan Cheng Dinghuai Zhang Hengli Li Kaiyan Zhang Che Jiang Youbang Sun Ermo Hua Yuxin Zuo Xingtai Lv13 more

Résumé

Construire l'IA avec l'IA

Hyper Newsletters

Xuekai Zhu Daixuan Cheng Dinghuai Zhang Hengli Li Kaiyan Zhang Che Jiang Youbang Sun Ermo Hua Yuxin Zuo Xingtai Lv