Command Palette
Search for a command to run...
SimpleVLA-RL: Skalierung des VLA-Trainings mittels Verstärkungslernen

Abstract
Vision-Language-Action-(VLA)-Modelle sind kürzlich als ein leistungsfähiges Paradigma für die roboterbasierte Manipulation hervorgetreten. Trotz erheblicher Fortschritte, die durch großskaliges Vortraining und überwachtes Feinabstimmen (Supervised Fine-Tuning, SFT) ermöglicht wurden, stehen diese Modelle vor zwei grundlegenden Herausforderungen: (i) der Knappheit und der hohen Kosten großskaliger, menschlich gesteuerter Roboter-Verläufe, die für eine Skalierung des SFT erforderlich sind, sowie (ii) begrenzter Generalisierbarkeit bei Aufgaben mit Verteilungsverschiebung. Kürzliche Durchbrüche bei großen Schlussfolgerungsmodellen (Large Reasoning Models, LRMs) zeigen, dass die Verstärkungslernverfahren (Reinforcement Learning, RL) die schrittweise Schlussfolgerungsfähigkeit erheblich verbessern können. Dies wirft eine naheliegende Frage auf: Kann RL ähnlich die Planung langfristiger, schrittweiser Aktionen bei VLA-Modellen verbessern? In dieser Arbeit stellen wir SimpleVLA-RL vor – einen effizienten RL-Framework, der speziell für VLA-Modelle konzipiert ist. Aufbauend auf veRL führen wir VLA-spezifische Trajektorien-Sampling-Strategien, skalierbare Parallelisierung, Mehrumgebung-Rendering und optimierte Verlustberechnung ein. Bei Anwendung auf OpenVLA-OFT erreicht SimpleVLA-RL state-of-the-art (SoTA)-Leistung auf LIBERO und übertrifft sogar pi_0 auf RoboTwin 1.0 und 2.0, wenn die von uns vorgestellten Exploration-Verbesserungsstrategien eingesetzt werden. SimpleVLA-RL reduziert nicht nur die Abhängigkeit von großskaligen Daten und ermöglicht eine robuste Generalisierung, sondern übertrifft SFT in realen Anwendungen erheblich. Darüber hinaus identifizieren wir während des RL-Trainings ein neuartiges Phänomen, das wir „pushcut“ nennen, bei dem die Policy bisher unbekannte Muster entdeckt, die jenseits dessen liegen, was im vorherigen Trainingsprozess gesehen wurde. GitHub: https://github.com/PRIME-RL/SimpleVLA-RL
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.