vor 11 Tagen

OpenVLA: Ein Open-Source-Vision-Language-Action-Modell

Moo Jin Kim, Karl Pertsch, Siddharth Karamcheti, Ted Xiao, Ashwin Balakrishna, Suraj Nair, Rafael Rafailov, Ethan Foster, Grace Lam, Pannag Sanketi, Quan Vuong, Thomas Kollar, Benjamin Burchfiel, Russ Tedrake, Dorsa Sadigh, Sergey Levine, Percy Liang, Chelsea Finn

Details der Forschungsarbeit anzeigen

OpenVLA: Ein Open-Source-Vision-Language-Action-Modell

Abstract

Große, auf einer Kombination aus internetweitem Vision-Sprache-Daten und vielfältigen Roboterdemonstrationen vortrainierte Modelle haben das Potenzial, die Art und Weise, wie wir Robotern neue Fähigkeiten beibringen, grundlegend zu verändern: Anstatt neue Verhaltensweisen von Grund auf zu trainieren, können wir solche Vision-Sprache-Aktion (VLA)-Modelle feinjustieren, um robuste und generalisierbare Politiken für visuomotorische Steuerung zu erzielen. Dennoch ist die breite Einführung von VLAs im Bereich der Robotik herausfordernd, da 1) bestehende VLAs größtenteils geschlossen und für die Öffentlichkeit nicht zugänglich sind und 2) vorangegangene Arbeiten keine effizienten Methoden zur Feinjustierung von VLAs für neue Aufgaben erforscht haben, was ein entscheidender Faktor für deren Akzeptanz ist.Um diese Herausforderungen anzugehen, stellen wir OpenVLA vor – ein 7B-Parameter-Modell, das offen und frei verfügbar ist und auf einer vielfältigen Sammlung von 970.000 echten Roboterdemonstrationen trainiert wurde. OpenVLA basiert auf einem Llama-2-Sprachmodell, ergänzt durch einen visuellen Encoder, der vortrainierte Merkmale aus DINOv2 und SigLIP fusioniert. Aufgrund der erhöhten Datenvielfalt und der neuen Modellkomponenten zeigt OpenVLA herausragende Leistung bei generalistischer Manipulation: Es übertrifft geschlossene Modelle wie RT-2-X (55B) um 16,5 Prozentpunkte in der absoluten Aufgaben-Erfolgsrate über 29 Aufgaben und mehrere Roboter-Embodiments, dabei mit nur einem Siebtel der Parameteranzahl.Weiterhin zeigen wir, dass sich OpenVLA effektiv für neue Anwendungsszenarien feinjustieren lässt, insbesondere mit starken Generalisierungsergebnissen in multi-task-Umgebungen mit mehreren Objekten und ausgeprägten Fähigkeiten zur sprachlichen Grundlage (language grounding), wobei es expressive Ansätze des von-Null-an-Imitierens wie Diffusion Policy um 20,4 Prozentpunkte übertrifft. Zudem untersuchen wir die Rechenleistungseffizienz: Als separater Beitrag zeigen wir, dass OpenVLA mittels moderner Low-Rank-Adaptation-Methoden auf Konsum-GPUs feinjustiert werden kann und über Quantisierung effizient bereitgestellt werden kann, ohne dass die Erfolgsrate in nachgelagerten Aufgaben leidet.Schließlich veröffentlichen wir Modell-Checkpoints, Notebooks zur Feinjustierung sowie unsere PyTorch-Codebasis mit integrierter Unterstützung für das Skalentraining von VLAs auf den Open X-Embodiment-Datensätzen.