RL-PLUS: Bekämpfung der Kapazitätsgrenzen-Kollaps von LLMs in der Verstärkenden Lernprozessen durch hybride Politik-Optimierung

Reinforcement Learning with Verifiable Reward (RLVR) hat die Fähigkeit großer Sprachmodelle (Large Language Models, LLMs) zur komplexen Schlussfolgerung erheblich vorangetrieben. Allerdings stößt es aufgrund seiner inhärent on-policy-Strategie, des immensen Aktionsraums des LLMs und der spärlichen Belohnung an die grundlegenden Kapazitätsgrenzen des Basismodells, sodass es diese nicht überwinden kann. Zudem kann RLVR zu einem Zusammenbruch der Leistungsgrenze führen, wodurch sich der Problemlösungsbereich des LLMs verengt. Um dieses Problem zu lösen, schlagen wir RL-PLUS vor, einen neuartigen Ansatz, der interne Ausbeutung (d. h. Denken) mit externer Datenintegration (d. h. Lernen) synergistisch verbindet, um eine stärkere Schlussfolgerungsfähigkeit zu erzielen und die Grenzen der Basismodelle zu überschreiten. RL-PLUS integriert zwei zentrale Komponenten: Multiple Importance Sampling zur Behandlung der Verteilungsungleichheit aus externen Daten sowie eine explorationsbasierte Vorteilsfunktion, die das Modell gezielt auf hochwertige, bisher unerforschte Schlussfolgerungspfade lenkt. Wir liefern sowohl eine theoretische Analyse als auch umfangreiche Experimente, um die Überlegenheit und Verallgemeinerungsfähigkeit unseres Ansatzes zu belegen. Die Ergebnisse zeigen, dass RL-PLUS im Vergleich zu bestehenden RLVR-Methoden auf sechs mathematischen Schlussfolgerungsbenchmark-Aufgaben die derzeit beste Leistung erzielt und zudem auf sechs Out-of-Distribution-Schlussfolgerungsaufgaben überlegene Ergebnisse erzielt. Zudem erzielt RL-PLUS konsistente und signifikante Verbesserungen über verschiedene Modellfamilien hinweg, wobei die durchschnittlichen relativen Verbesserungen zwischen 21,1 % und 69,2 % liegen. Darüber hinaus zeigen die Pass@k-Kurven über mehrere Benchmarks hinweg, dass RL-PLUS das Problem des Zusammenbruchs der Leistungsgrenze effektiv löst.