RLPR : Extrapolation de RLVR à des domaines généraux sans vérificateurs

L'apprentissage par renforcement avec des récompenses vérifiables (RLVR) montre un potentiel prometteur pour améliorer les capacités de raisonnement des grands modèles linguistiques (LLMs). Cependant, son succès reste largement confiné aux domaines mathématiques et de codage. Cette limitation principale découle d'une forte dépendance aux vérificateurs spécifiques au domaine, ce qui entraîne une complexité prohibitivement élevée et une scalabilité limitée. Pour relever ce défi, notre observation clé est que la probabilité intrinsèque d'un grand modèle linguistique de générer une réponse libre correcte indique directement son propre évaluation de la récompense du raisonnement (c'est-à-dire à quel point le processus de raisonnement conduit à la bonne réponse). Sur cette base, nous proposons RLPR, un cadre simple sans vérificateur qui étend le RLVR à des domaines plus généraux. RLPR utilise les scores de probabilité des jetons du LLM pour les réponses de référence comme signal de récompense et maximise la récompense attendue pendant l'entraînement. Nous constatons que l'atténuation de la forte variance de cette récompense probabiliste bruyante est cruciale pour qu'elle fonctionne efficacement, et nous proposons des méthodes prob-to-reward et stabilisantes pour garantir une récompense précise et stable à partir des probabilités intrinsèques du LLM. Des expériences exhaustives sur quatre benchmarks dans des domaines généraux et trois benchmarks mathématiques montrent que RLPR améliore constamment les capacités de raisonnement dans les deux domaines pour les modèles basés sur Gemma, Llama et Qwen. Notamment, RLPR surpasse VeriFree concurrent de 7,6 points sur TheoremQA et de 7,5 points sur Minerva, et même dépasse les approches fortement dépendantes des modèles vérificateurs telles que General-Reasoner avec une moyenne de 1,6 points sur sept benchmarks.