Command Palette
Search for a command to run...
Réexaminer l'apprentissage par renforcement pour la raisonnement des LLM sous une perspective interdomaine

Résumé
L'apprentissage par renforcement (RL) est apparu comme une approche prometteuse pour améliorer la capacité de raisonnement des grands modèles linguistiques (LLM), mais la plupart des efforts ouverts se concentrent principalement sur les mathématiques et le code, limitant notre compréhension de son application plus large au raisonnement général. Un défi majeur réside dans le manque de signaux de récompense fiables et évolutifs en RL à travers divers domaines de raisonnement. Nous présentons Guru, un corpus d'apprentissage par renforcement curaté comprenant 92 000 exemples vérifiables couvrant six domaines de raisonnement : Mathématiques, Code, Sciences, Logique, Simulation et Tableaux. Chaque domaine a été construit grâce à une conception spécifique des récompenses, ainsi qu'à des processus de déduplication et de filtrage pour garantir la fiabilité et l'efficacité nécessaires à la formation en RL. À partir de Guru, nous revisitons systématiquement les résultats établis en RL pour le raisonnement des LLM et observons des variations significatives entre les domaines. Par exemple, alors que les travaux antérieurs suggèrent que l'RL élicite principalement les connaissances existantes des modèles préentraînés, nos résultats mettent en lumière un schéma plus nuancé : les domaines fréquemment rencontrés lors du préentraînement (Mathématiques, Code, Sciences) bénéficient facilement d'une formation en RL inter-domaine, tandis que ceux avec une exposition limitée au préentraînement (Logique, Simulation et Tableaux) nécessitent une formation intra-domaine pour obtenir des gains de performance significatifs. Cela suggère que l'RL est susceptible de favoriser l'acquisition authentique de compétences. Enfin, nous présentons Guru-7B et Guru-32B, deux modèles qui atteignent des performances d'état de l'art parmi les modèles ouverts formés en RL avec des données publiques. Ils surpassent respectivement les meilleurs modèles de base de 7,9 % et 6,7 % sur notre suite d'évaluation composée de 17 tâches dans six domaines de raisonnement. Nous montrons également que nos modèles améliorent efficacement la performance Pass@k de leurs modèles de base, notamment sur des tâches complexes moins susceptibles d'apparaître dans les données de préentraînement. Nous mettons à disposition les données, les modèles ainsi que le code d'entraînement et d'évaluation pour faciliter le raisonnement polyvalent à cette adresse : this https URL
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.