HyperAIHyperAI

Command Palette

Search for a command to run...

vor einem Tag

$π_ exttt{RL}$: Online-RL-Finetuning für flussbasierte visuelle Sprach-Aktions-Modelle

$π_ exttt{RL}$: Online-RL-Finetuning für flussbasierte visuelle Sprach-Aktions-Modelle

Abstract

Vision-Language-Action-(VLA)-Model ermöglichen es Robotern, komplexe Aufgaben aus multimodalen Eingaben zu verstehen und auszuführen. Obwohl jüngste Arbeiten untersuchen, wie die zeitaufwändige Datensammlung bei der Skalierung von überwachten Feinabstimmungen (Supervised Fine-Tuning, SFT) durch Verstärkendes Lernen (Reinforcement Learning, RL) automatisiert werden kann, bleibt die Anwendung großskaliger RL auf flussbasierte VLAs (z. B. $π_0$, $π_{0.5}$) herausfordernd, da die Aktionenlog-Wahrscheinlichkeiten bei iterativem Entrauschen nicht analytisch berechenbar sind. Wir begegnen dieser Herausforderung mit $π_{\text{RL}}$, einem Open-Source-Framework zur parallelen Trainingsdurchführung flussbasierter VLAs in Simulation. $π_{\text{RL}}$ implementiert zwei RL-Algorithmen: (1) {Flow-Noise} modelliert den Entrauschungsprozess als diskretes zeitliches Markov-Entscheidungsproblem (MDP) mit einem lernbaren Rauschnetzwerk, das eine exakte Berechnung der Log-Wahrscheinlichkeiten ermöglicht. (2) {Flow-SDE} integriert den Entrauschungsprozess in die Interaktion zwischen Agent und Umgebung und formuliert ein zweischichtiges MDP, das eine ODE-zu-SDE-Umwandlung nutzt, um eine effiziente Exploration im RL-Prozess zu gewährleisten. Wir evaluieren $π_{\text{RL}}$ anhand der Benchmarks LIBERO und ManiSkill. Auf LIBERO steigern wir die Leistung von Few-Shot-SFT-Modellen $π_0$ und $π_{0.5}$ von 57,6 % auf 97,6 % beziehungsweise von 77,1 % auf 98,3 %. In ManiSkill trainieren wir $π_{\text{RL}}$ in 320 parallelen Umgebungen und verbessern die Leistung von $π_0$ von 41,6 % auf 85,7 % und von $π_{0.5}$ von 40,0 % auf 84,8 % über insgesamt 4352 Pick-and-Place-Aufgaben, was eine skalierbare Mehraufgaben-RL unter heterogener Simulation demonstriert. Insgesamt erzielt $π_{\text{RL}}$ erhebliche Leistungssteigerungen und eine stärkere Generalisierung gegenüber SFT-Modellen und bestätigt die Wirksamkeit des Online-RL für flussbasierte VLAs.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp