Command Palette
Search for a command to run...
πextttRL: Online-RL-Finetuning für flussbasierte visuelle Sprach-Aktions-Modelle
πextttRL: Online-RL-Finetuning für flussbasierte visuelle Sprach-Aktions-Modelle
Zusammenfassung
Vision-Language-Action-(VLA)-Model ermöglichen es Robotern, komplexe Aufgaben aus multimodalen Eingaben zu verstehen und auszuführen. Obwohl jüngste Arbeiten untersuchen, wie die zeitaufwändige Datensammlung bei der Skalierung von überwachten Feinabstimmungen (Supervised Fine-Tuning, SFT) durch Verstärkendes Lernen (Reinforcement Learning, RL) automatisiert werden kann, bleibt die Anwendung großskaliger RL auf flussbasierte VLAs (z. B. π0, π0.5) herausfordernd, da die Aktionenlog-Wahrscheinlichkeiten bei iterativem Entrauschen nicht analytisch berechenbar sind. Wir begegnen dieser Herausforderung mit πRL, einem Open-Source-Framework zur parallelen Trainingsdurchführung flussbasierter VLAs in Simulation. πRL implementiert zwei RL-Algorithmen: (1) {Flow-Noise} modelliert den Entrauschungsprozess als diskretes zeitliches Markov-Entscheidungsproblem (MDP) mit einem lernbaren Rauschnetzwerk, das eine exakte Berechnung der Log-Wahrscheinlichkeiten ermöglicht. (2) {Flow-SDE} integriert den Entrauschungsprozess in die Interaktion zwischen Agent und Umgebung und formuliert ein zweischichtiges MDP, das eine ODE-zu-SDE-Umwandlung nutzt, um eine effiziente Exploration im RL-Prozess zu gewährleisten. Wir evaluieren πRL anhand der Benchmarks LIBERO und ManiSkill. Auf LIBERO steigern wir die Leistung von Few-Shot-SFT-Modellen π0 und π0.5 von 57,6 % auf 97,6 % beziehungsweise von 77,1 % auf 98,3 %. In ManiSkill trainieren wir πRL in 320 parallelen Umgebungen und verbessern die Leistung von π0 von 41,6 % auf 85,7 % und von π0.5 von 40,0 % auf 84,8 % über insgesamt 4352 Pick-and-Place-Aufgaben, was eine skalierbare Mehraufgaben-RL unter heterogener Simulation demonstriert. Insgesamt erzielt πRL erhebliche Leistungssteigerungen und eine stärkere Generalisierung gegenüber SFT-Modellen und bestätigt die Wirksamkeit des Online-RL für flussbasierte VLAs.