Command Palette
Search for a command to run...
RLFR: Verlängerung des Verstärkungslernens für Sprachmodelle mit Flussumgebung
Jinghao Zhang Naishan Zheng Ruilin Li Dongzhou Cheng Zheming Liang Feng Zhao Jiaqi Wang

Abstract
Reinforcement Learning mit verifizierbaren Belohnungen (RLVR) ist kürzlich als vielversprechender Ansatz zur Verbesserung der Schlussfolgerungsfähigkeiten von großen Sprachmodellen (LLMs) hervorgetreten. Allerdings neigt eine mit binärer Verifizierung optimierte Politik dazu, potenziell wertvolle Explorationen entlang der Schlussfolgerungstrajektorien zu übersehen. Angesichts der hohen Anmerkungskosten für sogenannte Gold-Process-Belohnungsmodelle (PRMs) versuchen jüngere Ansätze, Hilfssignale zur Belohnungsformung von Prozess-Token einzusetzen, beispielsweise durch Entropie und Wahrscheinlichkeiten, die aus dem Logit-Raum abgeleitet werden. In dieser Arbeit präsentieren wir einen neuen Ansatz zur Formung von RLVR mittels Flussbelohnungen, die aus dem latente Raum stammen, und stellen RLFR vor, bei dem die Flussfelder der Modelllaten entweder aus off-policy hochwertigen Daten oder aus on-policy Abweichungsstichproben konstruiert werden. Die Geschwindigkeitsabweichungen der Politiklaten innerhalb dieses Flussfeldes werden quantifiziert, um als Belohnungssignal zu dienen. RLFR zeigt erstmals, dass ein gut etabliertes Flussfeld eine zuverlässige Umgebung für die Sammlung von Belohnungssignalen darstellt und unterstreicht, dass der Ausdrucksreichtum des latenten Raums bisher stark unterschätzt wurde. Zudem ist RLFR in der Lage, beliebige off-policy Expertendaten als Referenz zur Konstruktion von Belohnungssignalen zu komprimieren, und wir zeigen, dass dabei effizient kontextabhängige Informationen, die innerhalb der versteckten Zustände kodiert sind, genutzt werden, anstatt einzelne Token auf Ebene der Token-Denotation für die Kontextverarbeitung heranzuziehen. Experimente an Sprach- und multimodalen Schlussfolgerungsbenchmarks belegen die Zuverlässigkeit der Flussbelohnungen und deuten auf ein vielversprechendes Paradigma für die Belohnungsformung mittels Hilfssignalen hin.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.