HyperAIHyperAI

Command Palette

Search for a command to run...

RL-PLUS: Bekämpfung der Kapazitätsgrenzen-Kollaps von LLMs in der Verstärkenden Lernprozessen durch hybride Politik-Optimierung

Yihong Dong Xue Jiang Yongding Tao Huanyu Liu Kechi Zhang Lili Mou et al

Zusammenfassung

Reinforcement Learning with Verifiable Reward (RLVR) hat die Fähigkeit großer Sprachmodelle (Large Language Models, LLMs) zur komplexen Schlussfolgerung erheblich vorangetrieben. Allerdings stößt es aufgrund seiner inhärent on-policy-Strategie, des immensen Aktionsraums des LLMs und der spärlichen Belohnung an die grundlegenden Kapazitätsgrenzen des Basismodells, sodass es diese nicht überwinden kann. Zudem kann RLVR zu einem Zusammenbruch der Leistungsgrenze führen, wodurch sich der Problemlösungsbereich des LLMs verengt. Um dieses Problem zu lösen, schlagen wir RL-PLUS vor, einen neuartigen Ansatz, der interne Ausbeutung (d. h. Denken) mit externer Datenintegration (d. h. Lernen) synergistisch verbindet, um eine stärkere Schlussfolgerungsfähigkeit zu erzielen und die Grenzen der Basismodelle zu überschreiten. RL-PLUS integriert zwei zentrale Komponenten: Multiple Importance Sampling zur Behandlung der Verteilungsungleichheit aus externen Daten sowie eine explorationsbasierte Vorteilsfunktion, die das Modell gezielt auf hochwertige, bisher unerforschte Schlussfolgerungspfade lenkt. Wir liefern sowohl eine theoretische Analyse als auch umfangreiche Experimente, um die Überlegenheit und Verallgemeinerungsfähigkeit unseres Ansatzes zu belegen. Die Ergebnisse zeigen, dass RL-PLUS im Vergleich zu bestehenden RLVR-Methoden auf sechs mathematischen Schlussfolgerungsbenchmark-Aufgaben die derzeit beste Leistung erzielt und zudem auf sechs Out-of-Distribution-Schlussfolgerungsaufgaben überlegene Ergebnisse erzielt. Zudem erzielt RL-PLUS konsistente und signifikante Verbesserungen über verschiedene Modellfamilien hinweg, wobei die durchschnittlichen relativen Verbesserungen zwischen 21,1 % und 69,2 % liegen. Darüber hinaus zeigen die Pass@k-Kurven über mehrere Benchmarks hinweg, dass RL-PLUS das Problem des Zusammenbruchs der Leistungsgrenze effektiv löst.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
RL-PLUS: Bekämpfung der Kapazitätsgrenzen-Kollaps von LLMs in der Verstärkenden Lernprozessen durch hybride Politik-Optimierung | Paper | HyperAI