il y a un jour

Au-delà de Pass@1 : le self-play avec une synthèse variationnelle de problèmes soutient le RLVR

Xiao Liang, Zhongzhi Li, Yeyun Gong, Yelong Shen, Ying Nian Wu, Zhijiang Guo, Weizhu Chen

Résumé

L’apprentissage par renforcement avec récompenses vérifiables (RLVR, Reinforcement Learning with Verifiable Rewards) est récemment apparu comme un paradigme clé pour le post-entraînement des grands modèles linguistiques (LLM), en particulier pour les tâches de raisonnement complexes. Toutefois, l’entraînement classique en RLVR a été observé comme améliorant la performance Pass@1 au détriment de l’entropie politique, entraînant une réduction de la diversité des générations et limitant ainsi la performance Pass@k, qui représente généralement la borne supérieure de la capacité de raisonnement des LLM. Dans cet article, nous analysons systématiquement la diversité des générations de la politique du point de vue des problèmes d’entraînement, et constatons que l’enrichissement et la mise à jour des problèmes d’entraînement permettent de atténuer l’effondrement de l’entropie durant l’entraînement. À partir de ces observations, nous proposons une stratégie en ligne de self-play avec synthèse variationnelle de problèmes (SvS, Self-play with Variational problem Synthesis) pour l’entraînement en RLVR, qui utilise les solutions correctes produites par la politique pour générer des problèmes variationnels tout en maintenant inchangées les réponses de référence par rapport aux problèmes originaux. Cette stratégie auto-améliorante maintient efficacement l’entropie de la politique durant l’entraînement et améliore de manière significative la performance Pass@k par rapport au RLVR standard, tout en assurant des gains durables, avec des améliorations absolues de 18,3 % et 22,8 % sur les benchmarks de niveau compétitif AIME24 et AIME25 respectivement, en termes de performance Pass@32. Des expériences menées sur 12 benchmarks de raisonnement, pour des modèles de tailles variées allant de 3B à 32B, démontrent de manière cohérente la généralisabilité et la robustesse de la méthode SvS.