vor 2 Monaten

VLA-Adapter: Ein effektives Paradigma für kleine Vision-Sprache-Aktion-Modelle

Details der Forschungsarbeit anzeigen Code anzeigen

Yihao Wang Pengxiang Ding Lingxiao Li Can Cui Zirui Ge Xinyang Tong Wenxuan Song Han Zhao Wei Zhao Pengxu Hou

VLA-Adapter: Ein effektives Paradigma für kleine Vision-Sprache-Aktion-Modelle

Abstract

Vision-Language-Action-(VLA)-Modelle überbrücken typischerweise die Lücke zwischen perceptiver und aktiver Raumdimension, indem sie ein großskaliges Vision-Language-Modell (VLM) auf roboterbezogenen Daten vortrainieren. Obwohl dieser Ansatz die Leistung erheblich steigert, birgt er auch erhebliche Trainingskosten. In diesem Artikel untersuchen wir, wie die Übersetzung von Vision-Language-(VL)-Darstellungen in Aktionen (A) effektiv gestaltet werden kann. Wir stellen VLA-Adapter vor, ein neuartiges Paradigma, das die Abhängigkeit von VLA-Modellen von großskaligen VLMs und umfangreichen Vortrainingsprozessen reduzieren soll. Dazu analysieren wir systematisch die Wirksamkeit verschiedener VL-Bedingungen und präsentieren zentrale Erkenntnisse darüber, welche Bedingungen entscheidend für die Verknüpfung von Wahrnehmung und Aktion sind. Auf Basis dieser Erkenntnisse schlagen wir einen leichtgewichtigen Policy-Modul mit Bridge-Attention vor, der autonom die optimalen Bedingungen in den Aktionsraum einfügt. Auf diese Weise erreicht unsere Methode hohe Leistungsfähigkeit mit lediglich einem 0,5-Billionen-Parameter-Grundgerüst – ohne jegliches Vortraining auf Roboterdaten. Umfangreiche Experimente an simulierten und realen Roboterbenchmarks zeigen, dass VLA-Adapter nicht nur Leistungen auf State-of-the-Art-Niveau erzielt, sondern auch die bisher schnellste Inferenzgeschwindigkeit bietet. Darüber hinaus ermöglicht das vorgeschlagene fortschrittliche Überbrückungsparadigma die Trainingszeit eines leistungsfähigen VLA-Modells auf nur acht Stunden bei Nutzung einer einzigen Consumer-GPU, wodurch die Einstiegshürde für die Implementierung von VLA-Modellen erheblich sinkt. Projektseite: https://vla-adapter.github.io/.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding

Sofort einsatzbereit GPUs

Beste Preise

Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

VLA-Adapter: Ein effektives Paradigma für kleine Vision-Sprache-Aktion-Modelle

Yihao Wang Pengxiang Ding Lingxiao Li Can Cui Zirui Ge Xinyang Tong Wenxuan Song Han Zhao Wei Zhao Pengxu Hou6 more

Abstract

KI mit KI entwickeln

Hyper Newsletters

Yihao Wang Pengxiang Ding Lingxiao Li Can Cui Zirui Ge Xinyang Tong Wenxuan Song Han Zhao Wei Zhao Pengxu Hou