HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Monaten

VLA-Adapter: Ein effektives Paradigma für kleine Vision-Sprache-Aktion-Modelle

VLA-Adapter: Ein effektives Paradigma für kleine Vision-Sprache-Aktion-Modelle

Abstract

Vision-Language-Action-(VLA)-Modelle überbrücken typischerweise die Lücke zwischen perceptiver und aktiver Raumdimension, indem sie ein großskaliges Vision-Language-Modell (VLM) auf roboterbezogenen Daten vortrainieren. Obwohl dieser Ansatz die Leistung erheblich steigert, birgt er auch erhebliche Trainingskosten. In diesem Artikel untersuchen wir, wie die Übersetzung von Vision-Language-(VL)-Darstellungen in Aktionen (A) effektiv gestaltet werden kann. Wir stellen VLA-Adapter vor, ein neuartiges Paradigma, das die Abhängigkeit von VLA-Modellen von großskaligen VLMs und umfangreichen Vortrainingsprozessen reduzieren soll. Dazu analysieren wir systematisch die Wirksamkeit verschiedener VL-Bedingungen und präsentieren zentrale Erkenntnisse darüber, welche Bedingungen entscheidend für die Verknüpfung von Wahrnehmung und Aktion sind. Auf Basis dieser Erkenntnisse schlagen wir einen leichtgewichtigen Policy-Modul mit Bridge-Attention vor, der autonom die optimalen Bedingungen in den Aktionsraum einfügt. Auf diese Weise erreicht unsere Methode hohe Leistungsfähigkeit mit lediglich einem 0,5-Billionen-Parameter-Grundgerüst – ohne jegliches Vortraining auf Roboterdaten. Umfangreiche Experimente an simulierten und realen Roboterbenchmarks zeigen, dass VLA-Adapter nicht nur Leistungen auf State-of-the-Art-Niveau erzielt, sondern auch die bisher schnellste Inferenzgeschwindigkeit bietet. Darüber hinaus ermöglicht das vorgeschlagene fortschrittliche Überbrückungsparadigma die Trainingszeit eines leistungsfähigen VLA-Modells auf nur acht Stunden bei Nutzung einer einzigen Consumer-GPU, wodurch die Einstiegshürde für die Implementierung von VLA-Modellen erheblich sinkt. Projektseite: https://vla-adapter.github.io/.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
VLA-Adapter: Ein effektives Paradigma für kleine Vision-Sprache-Aktion-Modelle | Forschungsarbeiten | HyperAI