Command Palette
Search for a command to run...
Le renforcement learning incite-t-il réellement les modèles de langage de grande taille à développer une capacité de raisonnement au-delà du modèle de base ?
Yang Yue Zhiqi Chen Rui Lu Andrew Zhao Zhaokai Wang Shiji Song Yang Yue Gao Huang

Résumé
L’apprentissage par renforcement avec récompenses vérifiables (RLVR, Reinforcement Learning with Verifiable Rewards) a récemment démontré un succès notable dans l’amélioration des performances de raisonnement des grands modèles linguistiques (LLM, Large Language Models), en particulier dans les tâches mathématiques et de programmation. On considère généralement que, tout comme l’apprentissage par renforcement classique permet aux agents d’explorer et d’apprendre de nouvelles stratégies, le RLVR permet aux LLM d’effectuer une amélioration continue de soi-même, acquérant ainsi de nouvelles capacités de raisonnement dépassant les limites des modèles de base correspondants. Dans cette étude, nous examinons de manière critique l’état actuel du RLVR en sonant systématiquement les limites de la capacité de raisonnement des LLM entraînés par RLVR, sur diverses familles de modèles, algorithmes d’apprentissage par renforcement et benchmarks de raisonnement mathématique, de codage et visuel, en utilisant comme métrique d’évaluation le pass@k pour de grandes valeurs de k. Bien que le RLVR améliore l’efficacité d’échantillonnage vers le bon chemin, nous constatons de manière surprenante que l’entraînement actuel ne suscite pas de schémas de raisonnement fondamentalement nouveaux. Nous observons que, si les modèles entraînés par RLVR surpassent leurs modèles de base pour de petites valeurs de k (par exemple, k = 1), les modèles de base obtiennent un score pass@k plus élevé lorsque k est grand. De plus, nous constatons que la frontière de capacité de raisonnement des LLM tend à se rétrécir au fur et à mesure de l’entraînement par RLVR. Une analyse approfondie de la couverture et de la perplexité révèle que les chemins de raisonnement générés par les modèles RLVR sont déjà inclus dans la distribution d’échantillonnage des modèles de base, ce qui suggère que leurs capacités de raisonnement proviennent de, et sont bornées par, le modèle de base. À cet égard, en considérant le modèle de base comme une borne supérieure, notre analyse quantitative montre que six algorithmes populaires de RLVR se comportent de manière similaire et restent très éloignés d’une utilisation optimale du potentiel du modèle de base. En revanche, nous constatons que la distillation peut introduire de nouveaux schémas de raisonnement issus de l’enseignant et véritablement élargir les capacités de raisonnement du modèle. Ensemble, nos résultats suggèrent que les méthodes actuelles de RLVR n’ont pas pleinement exploité le potentiel de l’apprentissage par renforcement à susciter des capacités de raisonnement véritablement novatrices chez les LLM. Cela met en évidence la nécessité de développer de nouveaux paradigmes d’apprentissage par renforcement — tels que l’agrandissement continu ou l’interaction itérative multi-tours entre l’agent et l’environnement — afin de libérer ce potentiel.
Construire l'IA avec l'IA
De l'idée au lancement — accélérez votre développement IA avec du co-codage IA gratuit, un environnement prêt à l'emploi et les meilleurs prix GPU.