SwS : Synthèse de Problèmes Guidée par les Faiblesses et la Conscience de Soi dans l'Apprentissage par Renforcement pour le Raisonnement des LLM

Liang, Xiao ; Li, Zhong-Zhi ; Gong, Yeyun ; Wang, Yang ; Zhang, Hengyuan ; Shen, Yelong ; Wu, Ying Nian ; Chen, Weizhu

Date de publication: 6/16/2025

SwS : Synthèse de Problèmes Guidée par les Faiblesses et la Conscience de Soi dans l'Apprentissage par Renforcement pour le Raisonnement des LLM

Résumé

L'apprentissage par renforcement avec des récompenses vérifiables (RLVR) s'est avéré efficace pour entraîner de grands modèles linguistiques (LLMs) sur des tâches de raisonnement complexes, telles que la résolution de problèmes mathématiques. Un prérequis pour l'évolutivité du RLVR est un ensemble de problèmes de haute qualité dotés de réponses précises et vérifiables. Cependant, la rareté de problèmes mathématiques bien conçus et étiquetés par des humains, ainsi que les réponses à vérification limitée dans les ensembles de données synthétiques orientés vers la distillation, limite leur efficacité dans le RL. De plus, la plupart des stratégies de synthèse de problèmes élargissent l'ensemble de problèmes sans considérer les capacités du modèle, ce qui entraîne une faible efficacité dans la génération de questions utiles. Pour atténuer cette difficulté, nous introduisons un cadre de synthèse de problèmes guidée par les faiblesses auto-identifiées (SwS) qui identifie systématiquement les lacunes du modèle et les utilise pour augmenter l'ensemble de problèmes. Plus précisément, nous définissons les faiblesses comme des questions que le modèle échoue constamment à apprendre au cours de ses échantillonnages itératifs pendant l'entraînement par renforcement. Nous extrayons ensuite les concepts clés à partir de ces cas d'échec et synthétisons de nouveaux problèmes pour renforcer les points faibles du modèle lors d'une formation ultérieure augmentée, lui permettant ainsi de se concentrer sur et d'améliorer progressivement ses faiblesses. Sans recourir à la distillation externe des connaissances, notre cadre favorise une généralisation robuste en permettant au modèle d'identifier et de corriger ses propres faiblesses dans le RL, ce qui se traduit par des gains moyens de performance respectivement de 10,0 % et 7,7 % sur des modèles 7B et 32B selon huit benchmarks principaux en matière de raisonnement.

Voir les détails de l'article