RL-PLUS : Contrer la collapse de la frontière des capacités des MLG en apprentissage par renforcement par une optimisation hybride des politiques

L’apprentissage par renforcement avec récompense vérifiable (RLVR) a considérablement amélioré les capacités de raisonnement complexe des grands modèles linguistiques (LLM). Toutefois, il peine à dépasser les limites intrinsèques de capacité du modèle de base, en raison de sa stratégie intrinsèquement « on-policy », combinée à l’immense espace d’actions du LLM et à une récompense éparses. En outre, le RLVR peut entraîner un effondrement de la frontière de capacité, réduisant ainsi la portée de résolution de problèmes du LLM. Pour résoudre ce problème, nous proposons RL-PLUS, une nouvelle approche qui synergie l’exploitation interne (c’est-à-dire la « pensée ») avec l’apprentissage externe (c’est-à-dire l’acquisition de données) afin d’obtenir des capacités de raisonnement plus puissantes et de dépasser les limites des modèles de base. RL-PLUS intègre deux composants centraux : l’échantillonnage par importance multiple, permettant de corriger le décalage de distribution provenant des données externes, et une fonction d’avantage fondée sur l’exploration, qui guide le modèle vers des chemins de raisonnement à fort potentiel mais encore inexplorés. Nous fournissons à la fois une analyse théorique et des expérimentations étendues pour démontrer l’efficacité et la généralisation de notre approche. Les résultats montrent que RL-PLUS atteint des performances de pointe par rapport aux méthodes existantes de RLVR sur six benchmarks de raisonnement mathématique, tout en se distinguant par une performance supérieure sur six tâches de raisonnement hors distribution. Il obtient également des gains constants et significatifs sur diverses familles de modèles, avec des améliorations relatives moyennes allant de 21,1 % à 69,2 %. En outre, les courbes Pass@k sur plusieurs benchmarks indiquent que RL-PLUS résout efficacement le problème d’effondrement de la frontière de capacité.