Command Palette
Search for a command to run...
VLA-Adapter: Ein effektives Paradigma für kleine Vision-Sprache-Aktion-Modelle

Abstract
Vision-Language-Action-(VLA)-Modelle überbrücken typischerweise die Lücke zwischen perceptiver und aktiver Raumdimension, indem sie ein großskaliges Vision-Language-Modell (VLM) auf roboterbezogenen Daten vortrainieren. Obwohl dieser Ansatz die Leistung erheblich steigert, birgt er auch erhebliche Trainingskosten. In diesem Artikel untersuchen wir, wie die Übersetzung von Vision-Language-(VL)-Darstellungen in Aktionen (A) effektiv gestaltet werden kann. Wir stellen VLA-Adapter vor, ein neuartiges Paradigma, das die Abhängigkeit von VLA-Modellen von großskaligen VLMs und umfangreichen Vortrainingsprozessen reduzieren soll. Dazu analysieren wir systematisch die Wirksamkeit verschiedener VL-Bedingungen und präsentieren zentrale Erkenntnisse darüber, welche Bedingungen entscheidend für die Verknüpfung von Wahrnehmung und Aktion sind. Auf Basis dieser Erkenntnisse schlagen wir einen leichtgewichtigen Policy-Modul mit Bridge-Attention vor, der autonom die optimalen Bedingungen in den Aktionsraum einfügt. Auf diese Weise erreicht unsere Methode hohe Leistungsfähigkeit mit lediglich einem 0,5-Billionen-Parameter-Grundgerüst – ohne jegliches Vortraining auf Roboterdaten. Umfangreiche Experimente an simulierten und realen Roboterbenchmarks zeigen, dass VLA-Adapter nicht nur Leistungen auf State-of-the-Art-Niveau erzielt, sondern auch die bisher schnellste Inferenzgeschwindigkeit bietet. Darüber hinaus ermöglicht das vorgeschlagene fortschrittliche Überbrückungsparadigma die Trainingszeit eines leistungsfähigen VLA-Modells auf nur acht Stunden bei Nutzung einer einzigen Consumer-GPU, wodurch die Einstiegshürde für die Implementierung von VLA-Modellen erheblich sinkt. Projektseite: https://vla-adapter.github.io/.
KI mit KI entwickeln
Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.