Command Palette
Search for a command to run...
Apprentissage par renforcement sur les données d'entraînement préalable

Résumé
L’écart croissant entre l’expansion exponentielle des ressources computationnelles et la croissance limitée des données textuelles de haute qualité constitue désormais une contrainte majeure pour les approches conventionnelles d’agrandissement des grands modèles linguistiques (LLM). Pour relever ce défi, nous introduisons RLPT (Reinforcement Learning on Pre-Training data), un nouveau paradigme d’agrandissement au moment de l’entraînement visant à optimiser les LLM. Contrairement aux approches antérieures qui étendent l’entraînement principalement par apprentissage supervisé, RLPT permet à la politique d’explorer de manière autonome des trajectoires significatives à partir des données d’entraînement préalable, tout en améliorant ses capacités grâce à l’apprentissage par renforcement (RL). Alors que les stratégies existantes d’apprentissage par renforcement, telles que l’apprentissage par renforcement à partir du feedback humain (RLHF) ou l’apprentissage par renforcement avec récompenses vérifiables (RLVR), reposent sur des annotations humaines pour construire les signaux de récompense, RLPT élimine cette dépendance en extrayant directement les signaux de récompense à partir des données d’entraînement préalable. Plus précisément, il adopte une objectif de raisonnement sur le segment suivant, en récompensant la politique pour une prédiction précise des segments textuels ultérieurs conditionnés au contexte précédent. Cette formulation permet d’échelonner l’apprentissage par renforcement sur les données d’entraînement préalable, encourageant ainsi l’exploration de trajectoires plus riches sur des contextes plus étendus, et favorisant ainsi le développement de compétences de raisonnement plus généralisables. Des expériences étendues sur des benchmarks couvrant des domaines généraux et le raisonnement mathématique, menées sur plusieurs modèles, valident l’efficacité de RLPT. Par exemple, appliqué à Qwen3-4B-Base, RLPT permet d’obtenir des améliorations absolues de 3,0, 5,1, 8,1, 6,0, 6,6 et 5,3 respectivement sur MMLU, MMLU-Pro, GPQA-Diamond, KOR-Bench, AIME24 et AIME25. Les résultats démontrent également un comportement d’échelonnement favorable, suggérant un fort potentiel d’améliorations continues avec l’augmentation des ressources computationnelles. En outre, RLPT fournit une base solide, permettant d’étendre les frontières du raisonnement des LLM et d’améliorer les performances de RLVR.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.