HyperAIHyperAI

Command Palette

Search for a command to run...

vor einem Monat

FlowRL: Anpassung von Belohnungsverteilungen für die Schlussfolgerung durch LLM

FlowRL: Anpassung von Belohnungsverteilungen für die Schlussfolgerung durch LLM

Abstract

Wir stellen FlowRL vor: eine Methode zur Anpassung der gesamten Belohnungsverteilung mittels Flussausgleich, anstelle der Maximierung von Belohnungen im Rahmen der Verstärkungslernverfahren (Reinforcement Learning, RL) für große Sprachmodelle (Large Language Models, LLMs). Moderne fortschrittliche Schlussfolgerungsmodelle setzen hierbei Belohnungsmaximierungsansätze ein (z. B. PPO und GRPO), die dazu neigen, dominante Belohnungssignale überoptimiert zu verfolgen, während seltener auftretende, aber gültige Schlussfolgerungspfade vernachlässigt werden, was die Vielfalt der Lösungswege reduziert. Im Gegensatz dazu transformieren wir skalare Belohnungen mittels einer lernbaren Partitionsfunktion in eine normalisierte Zielverteilung und minimieren anschließend die umgekehrte Kullback-Leibler-Divergenz zwischen der Politik und der Zielverteilung. Wir realisieren dieses Konzept als einen flussausgeglichenen Optimierungsansatz, der eine vielfältige Exploration und generalisierbare Schlussfolgerungspfade fördert. Wir testen unsere Methode an mathematischen und codebasierten Schlussfolgerungsaufgaben: FlowRL erreicht auf mathematischen Benchmarkaufgaben eine signifikante durchschnittliche Verbesserung von 10,0 % gegenüber GRPO und 5,1 % gegenüber PPO, und zeigt zudem konsistent bessere Leistung bei der Code-Schlussfolgerung. Diese Ergebnisse unterstreichen die Anpassung der Belohnungsverteilung als entscheidenden Schritt hin zu effizienter Exploration und vielfältiger Schlussfolgerung im RL für große Sprachmodelle.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
FlowRL: Anpassung von Belohnungsverteilungen für die Schlussfolgerung durch LLM | Forschungsarbeiten | HyperAI