Jenseits von Pass@1: Selbstspiel mit variationaler Problemgenerierung erhält RLVR aufrechterhalten

Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) ist kürzlich zu einem zentralen Paradigma für die Nachtrainierung großer Sprachmodelle (LLMs) geworden, insbesondere für anspruchsvolle Schlussfolgerungsaufgaben. Allerdings hat sich gezeigt, dass die herkömmliche RLVR-Trainingsmethode die Pass@1-Leistung verbessert, jedoch die Politik-Entropie verringert, was zu einer eingeschränkten Vielfalt der Generierung führt und die Pass@k-Leistung einschränkt – eine Kenngröße, die typischerweise die obere Grenze des Schlussfolgungsvermögens von LLMs darstellt. In diesem Artikel analysieren wir systematisch die Generierungsvielfalt der Politik aus Sicht der Trainingsprobleme und stellen fest, dass die Erweiterung und Aktualisierung der Trainingsprobleme zur Milderung des Entropiekollapses während des Trainings beitragen. Aufgrund dieser Beobachtungen schlagen wir eine Online-Strategie namens Self-play mit variationaler Problem-Synthese (SvS) für RLVR-Trainingsprozesse vor, die die korrekten Lösungen der Politik nutzt, um variierende Probleme zu generieren, wobei die Referenzantworten jedoch identisch mit den ursprünglichen bleiben. Diese selbstverbessernde Strategie hält die Politik-Entropie während des Trainings effektiv auf hohem Niveau und verbessert die Pass@k-Leistung signifikant gegenüber der herkömmlichen RLVR-Methode. Sie ermöglicht nachhaltige Leistungssteigerungen und erreicht absolute Verbesserungen von 18,3 % und 22,8 % bei der Pass@32-Leistung auf den anspruchsvollen Benchmark-Aufgaben AIME24 und AIME25. Experimente an zwölf unterschiedlichen Schlussfolgerungsbenchmarks mit Modellen unterschiedlicher Größe zwischen 3B und 32B belegen konsistent die Allgemeingültigkeit und Robustheit der SvS-Strategie.