vor 2 Monaten

SimpleVLA-RL: Skalierung des VLA-Trainings mittels Verstärkungslernen

Details der Forschungsarbeit anzeigen Code anzeigen

Haozhan Li Yuxin Zuo Jiale Yu Yuhao Zhang Zhaohui Yang Kaiyan Zhang Xuekai Zhu Yuchen Zhang Tianxing Chen Ganqu Cui

SimpleVLA-RL: Skalierung des VLA-Trainings mittels Verstärkungslernen

Abstract

Vision-Language-Action-(VLA)-Modelle sind kürzlich als ein leistungsfähiges Paradigma für die roboterbasierte Manipulation hervorgetreten. Trotz erheblicher Fortschritte, die durch großskaliges Vortraining und überwachtes Feinabstimmen (Supervised Fine-Tuning, SFT) ermöglicht wurden, stehen diese Modelle vor zwei grundlegenden Herausforderungen: (i) der Knappheit und der hohen Kosten großskaliger, menschlich gesteuerter Roboter-Verläufe, die für eine Skalierung des SFT erforderlich sind, sowie (ii) begrenzter Generalisierbarkeit bei Aufgaben mit Verteilungsverschiebung. Kürzliche Durchbrüche bei großen Schlussfolgerungsmodellen (Large Reasoning Models, LRMs) zeigen, dass die Verstärkungslernverfahren (Reinforcement Learning, RL) die schrittweise Schlussfolgerungsfähigkeit erheblich verbessern können. Dies wirft eine naheliegende Frage auf: Kann RL ähnlich die Planung langfristiger, schrittweiser Aktionen bei VLA-Modellen verbessern? In dieser Arbeit stellen wir SimpleVLA-RL vor – einen effizienten RL-Framework, der speziell für VLA-Modelle konzipiert ist. Aufbauend auf veRL führen wir VLA-spezifische Trajektorien-Sampling-Strategien, skalierbare Parallelisierung, Mehrumgebung-Rendering und optimierte Verlustberechnung ein. Bei Anwendung auf OpenVLA-OFT erreicht SimpleVLA-RL state-of-the-art (SoTA)-Leistung auf LIBERO und übertrifft sogar pi_0 auf RoboTwin 1.0 und 2.0, wenn die von uns vorgestellten Exploration-Verbesserungsstrategien eingesetzt werden. SimpleVLA-RL reduziert nicht nur die Abhängigkeit von großskaligen Daten und ermöglicht eine robuste Generalisierung, sondern übertrifft SFT in realen Anwendungen erheblich. Darüber hinaus identifizieren wir während des RL-Trainings ein neuartiges Phänomen, das wir „pushcut“ nennen, bei dem die Policy bisher unbekannte Muster entdeckt, die jenseits dessen liegen, was im vorherigen Trainingsprozess gesehen wurde. GitHub: https://github.com/PRIME-RL/SimpleVLA-RL

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

SimpleVLA-RL: Skalierung des VLA-Trainings mittels Verstärkungslernen

Haozhan Li Yuxin Zuo Jiale Yu Yuhao Zhang Zhaohui Yang Kaiyan Zhang Xuekai Zhu Yuchen Zhang Tianxing Chen Ganqu Cui11 more

Abstract

KI mit KI entwickeln

Hyper Newsletters

Haozhan Li Yuxin Zuo Jiale Yu Yuhao Zhang Zhaohui Yang Kaiyan Zhang Xuekai Zhu Yuchen Zhang Tianxing Chen Ganqu Cui