Command Palette
Search for a command to run...
$π_ exttt{RL}$: Online-RL-Finetuning für flussbasierte visuelle Sprach-Aktions-Modelle

Abstract
Vision-Language-Action-(VLA)-Model ermöglichen es Robotern, komplexe Aufgaben aus multimodalen Eingaben zu verstehen und auszuführen. Obwohl jüngste Arbeiten untersuchen, wie die zeitaufwändige Datensammlung bei der Skalierung von überwachten Feinabstimmungen (Supervised Fine-Tuning, SFT) durch Verstärkendes Lernen (Reinforcement Learning, RL) automatisiert werden kann, bleibt die Anwendung großskaliger RL auf flussbasierte VLAs (z. B. $π_0$, $π_{0.5}$) herausfordernd, da die Aktionenlog-Wahrscheinlichkeiten bei iterativem Entrauschen nicht analytisch berechenbar sind. Wir begegnen dieser Herausforderung mit $π_{\text{RL}}$, einem Open-Source-Framework zur parallelen Trainingsdurchführung flussbasierter VLAs in Simulation. $π_{\text{RL}}$ implementiert zwei RL-Algorithmen: (1) {Flow-Noise} modelliert den Entrauschungsprozess als diskretes zeitliches Markov-Entscheidungsproblem (MDP) mit einem lernbaren Rauschnetzwerk, das eine exakte Berechnung der Log-Wahrscheinlichkeiten ermöglicht. (2) {Flow-SDE} integriert den Entrauschungsprozess in die Interaktion zwischen Agent und Umgebung und formuliert ein zweischichtiges MDP, das eine ODE-zu-SDE-Umwandlung nutzt, um eine effiziente Exploration im RL-Prozess zu gewährleisten. Wir evaluieren $π_{\text{RL}}$ anhand der Benchmarks LIBERO und ManiSkill. Auf LIBERO steigern wir die Leistung von Few-Shot-SFT-Modellen $π_0$ und $π_{0.5}$ von 57,6 % auf 97,6 % beziehungsweise von 77,1 % auf 98,3 %. In ManiSkill trainieren wir $π_{\text{RL}}$ in 320 parallelen Umgebungen und verbessern die Leistung von $π_0$ von 41,6 % auf 85,7 % und von $π_{0.5}$ von 40,0 % auf 84,8 % über insgesamt 4352 Pick-and-Place-Aufgaben, was eine skalierbare Mehraufgaben-RL unter heterogener Simulation demonstriert. Insgesamt erzielt $π_{\text{RL}}$ erhebliche Leistungssteigerungen und eine stärkere Generalisierung gegenüber SFT-Modellen und bestätigt die Wirksamkeit des Online-RL für flussbasierte VLAs.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.