ReinFlow: Feinabstimmung der Flussübereinstimmungspolitik mit Online-Verstärkungslernen
Tonghe Zhang Chao Yu Sichang Su Yu Wang

Abstract
Wir stellen ReinFlow vor, einen einfachen, aber leistungsfähigen Online-Verfahrensrahmen für Verstärkendes Lernen (Reinforcement Learning, RL), der eine Familie von Flow-Matching-Politiken für die kontinuierliche Steuerung von Robotern feinabstimmt. Auf der Grundlage einer strengen RL-Theorie integriert ReinFlow lernbare Störungen in den deterministischen Pfad einer Flow-Politik, wodurch die Flow-Darstellung in einen diskreten zeitlichen Markov-Prozess überführt wird. Diese Umwandlung ermöglicht eine exakte und unkomplizierte Berechnung der Wahrscheinlichkeit (Likelihood), fördert die Exploration und gewährleistet eine stabile Trainingsdynamik. Dadurch kann ReinFlow verschiedene Varianten von Flow-Modellen feinabstimmen, darunter Rectified Flow [35] und Shortcut Models [19], insbesondere bei sehr wenigen oder sogar nur einem Entrauschungsschritt. Wir evaluieren ReinFlow an repräsentativen Aufgaben zur Lokomotion und Manipulation, einschließlich Langzeitplanung mit visuellen Eingaben und spärlichen Belohnungen. Die Episode-Belohnung von Rectified Flow-Politiken stieg im Durchschnitt um 135,36 % nach der Feinabstimmung bei anspruchsvollen Aufgaben zur mehrbeinigen Lokomotion, wobei gleichzeitig die Anzahl der Entrauschungsschritte reduziert und die benötigte Rechenzeit um 82,63 % im Vergleich zur state-of-the-art Diffusions-RL-Feinabstimmungsmethode DPPO [43] gespart wurde. Die Erfolgsrate von Shortcut Model-Politiken bei Zustands- und visuellen Manipulationsaufgaben erhöhte sich im Durchschnitt um 40,34 % nach der Feinabstimmung mit ReinFlow bei vier oder sogar nur einem Entrauschungsschritt – deren Leistung ist vergleichbar mit feinabgestimmten DDIM-Politiken, wobei im Durchschnitt 23,20 % Rechenzeit eingespart werden konnten.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.