Command Palette
Search for a command to run...
FlowRL : Aligner les distributions de récompense pour le raisonnement des grands modèles linguistiques

Résumé
Nous proposons FlowRL : une méthode qui correspond à la distribution complète des récompenses grâce à un équilibrage de flux, plutôt que de maximiser les récompenses dans l’apprentissage par renforcement (RL) des grands modèles linguistiques (LLM). Les modèles récents d’inférence avancés reposent sur des approches de maximisation des récompenses (par exemple, PPO et GRPO), qui ont tendance à sur-optimiser les signaux de récompense dominants tout en négligeant les chemins d’inférence moins fréquents mais tout aussi valides, ce qui réduit la diversité. À l’inverse, nous transformons les récompenses scalaires en une distribution cible normalisée à l’aide d’une fonction de partition apprenable, puis nous minimisons la divergence de KL inverse entre la politique et cette distribution cible. Nous mettons en œuvre cette idée sous la forme d’une méthode d’optimisation équilibrée par flux, qui favorise une exploration diversifiée et des trajectoires d’inférence généralisables. Nous menons des expériences sur des tâches d’inférence mathématique et de programmation : FlowRL obtient une amélioration moyenne significative de 10,0 % par rapport à GRPO et de 5,1 % par rapport à PPO sur les benchmarks mathématiques, et se montre également systématiquement supérieure sur les tâches d’inférence de code. Ces résultats mettent en évidence l’ajustement de la distribution des récompenses comme une étape clé vers une exploration efficace et une inférence diversifiée dans l’apprentissage par renforcement des LLM.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.