HyperAIHyperAI

Command Palette

Search for a command to run...

Back to Headlines

BroRL bricht Reinforcement-Learning-Plateaus durch verstärkte Exploration

vor 12 Tagen

Bei der Weiterentwicklung von Großsprachmodellen (LLMs) mit Verstärkungslernen aus überprüfbarer Belohnung (RLVR) stellt sich die Herausforderung, Leistungsplateaus zu überwinden, die sich nach intensiver Trainingsschritte einstellen. Die bisherige Lösung von NVIDIA Research, Prolonged Reinforcement Learning (ProRL), zeigte, dass längeres Training die reasoning-Fähigkeiten von LLMs erweitern kann – doch nach etwa 3.000 Schritten stagnierte die Leistung oder ging sogar zurück. Dies führte zur Frage, ob diese Grenze eine fundamentale Beschränkung des Verstärkungslernens darstellt oder vielmehr ein Nebeneffekt der bisherigen Skalierungsstrategie ist. Die Antwort liefert nun das neue Paradigma Broadened Reinforcement Learning (BroRL), das nicht auf längere Trainingsdauer, sondern auf eine massive Erhöhung der Anzahl explorativer Rollouts pro Prompt setzt – von 16 auf bis zu 512. Diese Rollout-Skalierung ermöglicht eine weitreichendere Exploration der Lösungslandschaft und stabilisiert den Lernprozess, indem zufällige Störungen aus der unerforschten Raumregion durch statistische Mittelung ausgeglichen werden. Theoretisch lässt sich dies als Balance zwischen beobachteten Pfaden (sampled rollouts) und unbekannten Möglichkeiten (unsampled space) verstehen: Nur bei einer ausreichend großen Anzahl von Explorationen dominiert der positive Lernsignal, was eine kontinuierliche Leistungssteigerung ermöglicht. In Experimenten wurde ein bereits stagnierendes ProRLv2-Modell (3.000 Schritte) mit BroRL weitertrainiert. Während das ProRL-Modell nach 535 Stunden stagnierte oder sogar abfiel, zeigte BroRL mit N=512 eine kontinuierliche Verbesserung: Nach nur 98,1 Stunden erreichte es höhere Werte auf allen Benchmarks – Math (63,66), Code (56,64) und Reasoning Gym (63,40) – und übertraf damit die Bestleistung von ProRL deutlich. Die Berechnung erfolgte auf 64 NVIDIA H100-GPUs, wobei BroRL mit etwa 35 Stunden weniger Zeit auskam. Zudem zeigte BroRL eine bessere Token-Effizienz: Weniger Ausgabetokens bei höherer Genauigkeit, da große Rollout-Zahlen kürzere, hochwertige Lösungspfade aufdecken und redundante, langwierige Schlussfolgerungen reduzieren. Die Ergebnisse zeigen, dass die Leistungsplateaus bei RL nicht durch die Natur des Lernprozesses, sondern durch unzureichende Exploration verursacht werden. BroRL beweist, dass die Breite der Exploration – nicht nur die Tiefe – entscheidend für Fortschritte ist. Dies stellt eine paradigmatische Verschiebung dar: Statt länger zu trainieren, sollte man breiter forschen. Bewertung durch Experten: Branchenexperten sehen in BroRL einen Meilenstein für effizientes RL in LLMs. „Die Entdeckung, dass Rollout-Größe ein kritischer Skalierungsfaktor ist, könnte die Zukunft des RL für Sprachmodelle neu definieren“, sagt ein Forscher von Meta AI. NVIDIA positioniert sich mit BroRL als führender Akteur in der Effizienzoptimierung von RL, wobei die Veröffentlichung des 1,5-Billionen-Parameter-Modells über Hugging Face den Zugang für Forschung und Entwicklung erleichtert. BroRL ist damit nicht nur eine technische Verbesserung, sondern ein strategischer Wendepunkt in der Skalierung von kognitiven Modellen.

Related Links

BroRL bricht Reinforcement-Learning-Plateaus durch verstärkte Exploration | Neueste Nachrichten | HyperAI