HyperAIHyperAI

Command Palette

Search for a command to run...

Jenseits von Pass@1: Selbstspiel mit variationaler Problemgenerierung erhält RLVR aufrechterhalten

Xiao Liang Zhongzhi Li Yeyun Gong Yelong Shen Ying Nian Wu Zhijiang Guo Weizhu Chen

Zusammenfassung

Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) ist kürzlich zu einem zentralen Paradigma für die Nachtrainierung großer Sprachmodelle (LLMs) geworden, insbesondere für anspruchsvolle Schlussfolgerungsaufgaben. Allerdings hat sich gezeigt, dass die herkömmliche RLVR-Trainingsmethode die Pass@1-Leistung verbessert, jedoch die Politik-Entropie verringert, was zu einer eingeschränkten Vielfalt der Generierung führt und die Pass@k-Leistung einschränkt – eine Kenngröße, die typischerweise die obere Grenze des Schlussfolgungsvermögens von LLMs darstellt. In diesem Artikel analysieren wir systematisch die Generierungsvielfalt der Politik aus Sicht der Trainingsprobleme und stellen fest, dass die Erweiterung und Aktualisierung der Trainingsprobleme zur Milderung des Entropiekollapses während des Trainings beitragen. Aufgrund dieser Beobachtungen schlagen wir eine Online-Strategie namens Self-play mit variationaler Problem-Synthese (SvS) für RLVR-Trainingsprozesse vor, die die korrekten Lösungen der Politik nutzt, um variierende Probleme zu generieren, wobei die Referenzantworten jedoch identisch mit den ursprünglichen bleiben. Diese selbstverbessernde Strategie hält die Politik-Entropie während des Trainings effektiv auf hohem Niveau und verbessert die Pass@k-Leistung signifikant gegenüber der herkömmlichen RLVR-Methode. Sie ermöglicht nachhaltige Leistungssteigerungen und erreicht absolute Verbesserungen von 18,3 % und 22,8 % bei der Pass@32-Leistung auf den anspruchsvollen Benchmark-Aufgaben AIME24 und AIME25. Experimente an zwölf unterschiedlichen Schlussfolgerungsbenchmarks mit Modellen unterschiedlicher Größe zwischen 3B und 32B belegen konsistent die Allgemeingültigkeit und Robustheit der SvS-Strategie.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp