Sur l’interaction entre le préentraînement, l’entraînement intermédiaire et la RL dans les modèles linguistiques de raisonnement
Sur l’interaction entre le préentraînement, l’entraînement intermédiaire et la RL dans les modèles linguistiques de raisonnement
Charlie Zhang Graham Neubig Xiang Yue

Résumé
Les techniques récentes d’apprentissage par renforcement (RL) ont permis d’importants progrès dans la capacité de raisonnement des modèles linguistiques, mais il reste incertain que la phase de post-entraînement étende véritablement les capacités de raisonnement au-delà de ce que le modèle acquiert durant l’entraînement préalable. Un défi central réside dans le manque de contrôle au sein des pipelines d’entraînement modernes : les corpus d’entraînement à grande échelle sont opaques, l’étape intermédiaire est souvent négligée, et les objectifs de RL interagissent de manière complexe avec des connaissances préalables inconnues. Pour lever cette ambiguïté, nous développons un cadre expérimental entièrement contrôlé qui isole les contributions causales de l’entraînement préalable, de l’étape intermédiaire et du post-entraînement fondé sur le RL. Notre approche repose sur des tâches de raisonnement synthétiques comportant des opérations atomiques explicites, des traces de raisonnement étape par étape lisibles, ainsi que sur une manipulation systématique des distributions d’entraînement. Nous évaluons les modèles selon deux axes : la généralisation extrapolative à des compositions plus complexes, et la généralisation contextuelle à travers divers contextes superficiels. Grâce à ce cadre, nous reconcilions des visions contradictoires concernant l’efficacité du RL. Nous montrons que : 1) le RL génère des gains réels de capacité (mesurés par pass@128) uniquement lorsque l’entraînement préalable laisse suffisamment de marge de progression, et lorsque les données de RL ciblent précisément la limite de compétence du modèle — des tâches situées à la frontière, difficiles mais encore accessibles ; 2) la généralisation contextuelle nécessite une exposition préalable minimale mais suffisante, après laquelle le RL peut transférer de manière fiable ; 3) l’étape intermédiaire améliore significativement les performances, même avec une ressource calculatoire fixe, par rapport à une approche basée uniquement sur le RL, mettant en évidence son rôle central mais peu exploré dans les pipelines d’entraînement ; 4) les récompenses au niveau du processus réduisent les stratégies d’exploitation (reward hacking) et améliorent la fidélité du raisonnement. Ensemble, ces résultats éclairent l’interrelation entre l’entraînement préalable, l’étape intermédiaire et le RL, offrant une base solide pour comprendre et améliorer les stratégies d’entraînement des modèles linguistiques à raisonnement.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.