Das unsichtbare Leine: Warum RLVR seinem Ursprung nicht entkommen kann

Neue Fortschritte bei großen Reasoning-Modellen heben Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) als vielversprechende Methode hervor, um die Fähigkeiten von KI zu verbessern, insbesondere bei der Lösung komplexer logischer Aufgaben. Allerdings ist unklar, ob RLVR tatsächlich die Grenzen des Reasoning-Modells erweitert oder lediglich hohe Belohnungsausgaben verstärkt, die das Basismodell bereits kennt, um die Genauigkeit zu verbessern. Diese Studie präsentiert eine theoretische und empirische Untersuchung, die neue Einblicke in die potenziellen Grenzen von RLVR bietet.Zunächst bieten wir eine neue theoretische Perspektive, wonach RLVR durch die Unterstützung des Basismodells eingeschränkt ist – es kann keine Lösungen mit anfänglicher Wahrscheinlichkeit null generieren – und als konservative Umweightungsmechanik fungiert, die die Entdeckung vollständig neuer Lösungen möglicherweise behindert. Wir identifizieren zudem ein Entropie-Belohnungs-Handelsverhältnis: Während RLVR die Genauigkeit zuverlässig verbessert, kann es die Exploration schrittweise einschränken und möglicherweise korrekte, aber unterrepräsentierte Lösungen übersehen.Ausführliche empirische Experimente bestätigen, dass RLVR zwar konstant die Pass@1-Rate steigert, die Verkleinerung des empirischen Supports jedoch unter größeren Sampling-Budgets in der Regel die Vergrößerung des empirischen Supports übertrifft und somit korrekte Antworten nicht mehr wiederherstellt, die zuvor vom Basismodell zugänglich waren. Interessanterweise stellen wir außerdem fest, dass RLVR manchmal die Token-Entropie erhöht, was zu größerer Unsicherheit bei jedem Generations-Schritt führt, während die Antwort-Entropie abnimmt. Dies zeigt, dass diese scheinbar unsichereren Pfade letztendlich zu einer kleineren Anzahl unterschiedlicher Antworten konvergieren.Zusammenfassend offenbaren diese Ergebnisse potenzielle Grenzen von RLVR bei der Erweiterung der Reasoning-Horizonte. Das Durchbrechen dieses unsichtbaren Leashes könnte zukünftige algorithmische Innovationen erfordern, wie beispielsweise explizite Exploration-Mechanismen oder hybride Strategien, die Wahrscheinlichkeitsmasse in unterrepräsentierte Lösungsregionen einbringen.