HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Tagen

Incentiviert Verstärkendes Lernen wirklich die Reasoning-Fähigkeit in LLMs über das Basismodell hinaus?

Yang Yue Zhiqi Chen Rui Lu Andrew Zhao Zhaokai Wang Shiji Song Yang Yue Gao Huang

Incentiviert Verstärkendes Lernen wirklich die Reasoning-Fähigkeit in LLMs über das Basismodell hinaus?

Abstract

Reinforcement Learning mit überprüfbarer Belohnung (Reinforcement Learning with Verifiable Rewards, RLVR) hat in jüngster Zeit erheblichen Erfolg bei der Verbesserung der Schlussfolgerungsfähigkeit großer Sprachmodelle (Large Language Models, LLMs) gezeigt, insbesondere in mathematischen und programmiersprachlichen Aufgaben. Es wird allgemein angenommen, dass RLVR LLMs ähnlich wie herkömmliches RL dazu befähigt, kontinuierlich sich selbst zu verbessern und neue Schlussfolgerungsstrategien zu erwerben, die über die Fähigkeiten der zugrundeliegenden Basismodelle hinausgehen. In dieser Studie betrachten wir kritisch den aktuellen Stand von RLVR, indem wir systematisch die Grenzen der Schlussfolgerungsfähigkeit von RLVR-trainierten LLMs anhand verschiedener Modellfamilien, RL-Algorithmen sowie Benchmark-Aufgaben aus den Bereichen Mathematik, Programmierung und visuelle Schlussfolgerung untersuchen. Als Bewertungsmaßstab verwenden wir dabei das Pass@k für große k-Werte. Während RLVR die Sampling-Effizienz bezüglich des korrekten Lösungswegs verbessert, stellen wir überraschenderweise fest, dass aktuelle Trainingsansätze keine grundlegend neuen Schlussfolgerungsmuster hervorrufen. Wir beobachten, dass RLVR-trainierte Modelle zwar bei kleineren k-Werten (z. B. k=1) gegenüber ihren Basismodellen überlegen sind, jedoch bei großen k-Werten die Basismodelle höhere Pass@k-Werte erreichen. Zudem zeigen wir, dass die Schlussfolgerungsfähigkeit von LLMs im Laufe des RLVR-Trainings häufig sogar enger wird. Ergänzende Analysen zur Abdeckung und zur Perplexität deuten darauf hin, dass die von RLVR-Modellen generierten Schlussfolgerungspfade bereits in der Sampling-Verteilung der Basismodelle enthalten sind, was darauf hindeutet, dass deren Schlussfolgerungsfähigkeiten letztlich aus und somit begrenzt durch das Basismodell stammen. Aus dieser Perspektive, bei der das Basismodell als obere Grenze betrachtet wird, zeigt unsere quantitative Analyse, dass sechs gängige RLVR-Algorithmen vergleichbare Leistungen erzielen und weit davon entfernt sind, das volle Potenzial des Basismodells optimal auszuschöpfen. Im Gegensatz dazu zeigen wir, dass die Modell-Distillation neue Schlussfolgerungsmuster aus dem Lehrmodell übernehmen und die Schlussfolgerungsfähigkeit tatsächlich erweitern kann. Zusammenfassend deuten unsere Ergebnisse darauf hin, dass aktuelle RLVR-Methoden das Potenzial von RL zur Auslösung wirklich neuer Schlussfolgerungsfähigkeiten bei LLMs noch nicht vollständig ausgeschöpft haben. Dies unterstreicht die Notwendigkeit verbesserter RL-Paradigmen – wie kontinuierliches Skalieren und interaktive, mehrschrittige Wechselwirkungen zwischen Agent und Umgebung –, um dieses Potenzial zu realisieren.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Incentiviert Verstärkendes Lernen wirklich die Reasoning-Fähigkeit in LLMs über das Basismodell hinaus? | Forschungsarbeiten | HyperAI