HyperAIHyperAI

Command Palette

Search for a command to run...

vor 6 Tagen

ReinFlow: Feinabstimmung der Flussübereinstimmungspolitik mit Online-Verstärkungslernen

Tonghe Zhang Chao Yu Sichang Su Yu Wang

ReinFlow: Feinabstimmung der Flussübereinstimmungspolitik mit Online-Verstärkungslernen

Abstract

Wir stellen ReinFlow vor, einen einfachen, aber leistungsfähigen Online-Verfahrensrahmen für Verstärkendes Lernen (Reinforcement Learning, RL), der eine Familie von Flow-Matching-Politiken für die kontinuierliche Steuerung von Robotern feinabstimmt. Auf der Grundlage einer strengen RL-Theorie integriert ReinFlow lernbare Störungen in den deterministischen Pfad einer Flow-Politik, wodurch die Flow-Darstellung in einen diskreten zeitlichen Markov-Prozess überführt wird. Diese Umwandlung ermöglicht eine exakte und unkomplizierte Berechnung der Wahrscheinlichkeit (Likelihood), fördert die Exploration und gewährleistet eine stabile Trainingsdynamik. Dadurch kann ReinFlow verschiedene Varianten von Flow-Modellen feinabstimmen, darunter Rectified Flow [35] und Shortcut Models [19], insbesondere bei sehr wenigen oder sogar nur einem Entrauschungsschritt. Wir evaluieren ReinFlow an repräsentativen Aufgaben zur Lokomotion und Manipulation, einschließlich Langzeitplanung mit visuellen Eingaben und spärlichen Belohnungen. Die Episode-Belohnung von Rectified Flow-Politiken stieg im Durchschnitt um 135,36 % nach der Feinabstimmung bei anspruchsvollen Aufgaben zur mehrbeinigen Lokomotion, wobei gleichzeitig die Anzahl der Entrauschungsschritte reduziert und die benötigte Rechenzeit um 82,63 % im Vergleich zur state-of-the-art Diffusions-RL-Feinabstimmungsmethode DPPO [43] gespart wurde. Die Erfolgsrate von Shortcut Model-Politiken bei Zustands- und visuellen Manipulationsaufgaben erhöhte sich im Durchschnitt um 40,34 % nach der Feinabstimmung mit ReinFlow bei vier oder sogar nur einem Entrauschungsschritt – deren Leistung ist vergleichbar mit feinabgestimmten DDIM-Politiken, wobei im Durchschnitt 23,20 % Rechenzeit eingespart werden konnten.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
ReinFlow: Feinabstimmung der Flussübereinstimmungspolitik mit Online-Verstärkungslernen | Forschungsarbeiten | HyperAI