vor einem Monat

FlowRL: Anpassung von Belohnungsverteilungen für die Schlussfolgerung durch LLM

Details der Forschungsarbeit anzeigen Code anzeigen

Xuekai Zhu Daixuan Cheng Dinghuai Zhang Hengli Li Kaiyan Zhang Che Jiang Youbang Sun Ermo Hua Yuxin Zuo Xingtai Lv

FlowRL: Anpassung von Belohnungsverteilungen für die Schlussfolgerung durch LLM

Abstract

Wir stellen FlowRL vor: eine Methode zur Anpassung der gesamten Belohnungsverteilung mittels Flussausgleich, anstelle der Maximierung von Belohnungen im Rahmen der Verstärkungslernverfahren (Reinforcement Learning, RL) für große Sprachmodelle (Large Language Models, LLMs). Moderne fortschrittliche Schlussfolgerungsmodelle setzen hierbei Belohnungsmaximierungsansätze ein (z. B. PPO und GRPO), die dazu neigen, dominante Belohnungssignale überoptimiert zu verfolgen, während seltener auftretende, aber gültige Schlussfolgerungspfade vernachlässigt werden, was die Vielfalt der Lösungswege reduziert. Im Gegensatz dazu transformieren wir skalare Belohnungen mittels einer lernbaren Partitionsfunktion in eine normalisierte Zielverteilung und minimieren anschließend die umgekehrte Kullback-Leibler-Divergenz zwischen der Politik und der Zielverteilung. Wir realisieren dieses Konzept als einen flussausgeglichenen Optimierungsansatz, der eine vielfältige Exploration und generalisierbare Schlussfolgerungspfade fördert. Wir testen unsere Methode an mathematischen und codebasierten Schlussfolgerungsaufgaben: FlowRL erreicht auf mathematischen Benchmarkaufgaben eine signifikante durchschnittliche Verbesserung von 10,0 % gegenüber GRPO und 5,1 % gegenüber PPO, und zeigt zudem konsistent bessere Leistung bei der Code-Schlussfolgerung. Diese Ergebnisse unterstreichen die Anpassung der Belohnungsverteilung als entscheidenden Schritt hin zu effizienter Exploration und vielfältiger Schlussfolgerung im RL für große Sprachmodelle.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

FlowRL: Anpassung von Belohnungsverteilungen für die Schlussfolgerung durch LLM

Xuekai Zhu Daixuan Cheng Dinghuai Zhang Hengli Li Kaiyan Zhang Che Jiang Youbang Sun Ermo Hua Yuxin Zuo Xingtai Lv13 more

Abstract

KI mit KI entwickeln

Hyper Newsletters

Xuekai Zhu Daixuan Cheng Dinghuai Zhang Hengli Li Kaiyan Zhang Che Jiang Youbang Sun Ermo Hua Yuxin Zuo Xingtai Lv