HyperAIHyperAI

Command Palette

Search for a command to run...

il y a un mois

FlowRL : Aligner les distributions de récompense pour le raisonnement des grands modèles linguistiques

FlowRL : Aligner les distributions de récompense pour le raisonnement des grands modèles linguistiques

Résumé

Nous proposons FlowRL : une méthode qui correspond à la distribution complète des récompenses grâce à un équilibrage de flux, plutôt que de maximiser les récompenses dans l’apprentissage par renforcement (RL) des grands modèles linguistiques (LLM). Les modèles récents d’inférence avancés reposent sur des approches de maximisation des récompenses (par exemple, PPO et GRPO), qui ont tendance à sur-optimiser les signaux de récompense dominants tout en négligeant les chemins d’inférence moins fréquents mais tout aussi valides, ce qui réduit la diversité. À l’inverse, nous transformons les récompenses scalaires en une distribution cible normalisée à l’aide d’une fonction de partition apprenable, puis nous minimisons la divergence de KL inverse entre la politique et cette distribution cible. Nous mettons en œuvre cette idée sous la forme d’une méthode d’optimisation équilibrée par flux, qui favorise une exploration diversifiée et des trajectoires d’inférence généralisables. Nous menons des expériences sur des tâches d’inférence mathématique et de programmation : FlowRL obtient une amélioration moyenne significative de 10,0 % par rapport à GRPO et de 5,1 % par rapport à PPO sur les benchmarks mathématiques, et se montre également systématiquement supérieure sur les tâches d’inférence de code. Ces résultats mettent en évidence l’ajustement de la distribution des récompenses comme une étape clé vers une exploration efficace et une inférence diversifiée dans l’apprentissage par renforcement des LLM.

Construire l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.

Co-codage IA
GPU prêts à utiliser
Meilleurs prix
Commencer

Hyper Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
FlowRL : Aligner les distributions de récompense pour le raisonnement des grands modèles linguistiques | Articles de recherche | HyperAI