Command Palette
Search for a command to run...
FlowRL: Anpassung von Belohnungsverteilungen für die Schlussfolgerung durch LLM

Abstract
Wir stellen FlowRL vor: eine Methode zur Anpassung der gesamten Belohnungsverteilung mittels Flussausgleich, anstelle der Maximierung von Belohnungen im Rahmen der Verstärkungslernverfahren (Reinforcement Learning, RL) für große Sprachmodelle (Large Language Models, LLMs). Moderne fortschrittliche Schlussfolgerungsmodelle setzen hierbei Belohnungsmaximierungsansätze ein (z. B. PPO und GRPO), die dazu neigen, dominante Belohnungssignale überoptimiert zu verfolgen, während seltener auftretende, aber gültige Schlussfolgerungspfade vernachlässigt werden, was die Vielfalt der Lösungswege reduziert. Im Gegensatz dazu transformieren wir skalare Belohnungen mittels einer lernbaren Partitionsfunktion in eine normalisierte Zielverteilung und minimieren anschließend die umgekehrte Kullback-Leibler-Divergenz zwischen der Politik und der Zielverteilung. Wir realisieren dieses Konzept als einen flussausgeglichenen Optimierungsansatz, der eine vielfältige Exploration und generalisierbare Schlussfolgerungspfade fördert. Wir testen unsere Methode an mathematischen und codebasierten Schlussfolgerungsaufgaben: FlowRL erreicht auf mathematischen Benchmarkaufgaben eine signifikante durchschnittliche Verbesserung von 10,0 % gegenüber GRPO und 5,1 % gegenüber PPO, und zeigt zudem konsistent bessere Leistung bei der Code-Schlussfolgerung. Diese Ergebnisse unterstreichen die Anpassung der Belohnungsverteilung als entscheidenden Schritt hin zu effizienter Exploration und vielfältiger Schlussfolgerung im RL für große Sprachmodelle.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.