HyperAIHyperAI

Command Palette

Search for a command to run...

vor 2 Monaten

Align-Then-StEer: Anpassung von Vision-Sprache-Aktions-Modellen durch einheitliche latente Steuerung

Yang Zhang Chenwei Wang Ouyang Lu Yuan Zhao Yunfei Ge et al

Align-Then-StEer: Anpassung von Vision-Sprache-Aktions-Modellen durch einheitliche latente Steuerung

Abstract

Vision-Language-Action-(VLA-)Modelle, die auf großen und vielfältigen Datensätzen vortrainiert wurden, zeigen ein großes Potenzial für allgemeine robotische Manipulation. Ein zentrales Hindernis bleibt jedoch die Anpassung dieser Modelle an nachgeschaltete Aufgaben, insbesondere dann, wenn die physische Ausprägung des Roboters oder die Aufgabe selbst von den Daten abweicht, auf denen das Modell vortrainiert wurde. Diese Diskrepanz führt zu einer erheblichen Diskrepanz in den Aktionsverteilungen und erfordert umfangreiche Daten und Rechenressourcen für eine effektive Feinabstimmung. Um dieser Herausforderung zu begegnen, stellen wir \textbf{Align-Then-stEer (\texttt{ATE})} vor – einen neuartigen, dateneffizienten und plug-and-play-fähigen Anpassungsrahmen. \texttt{ATE} führt zunächst eine Ausrichtung unterschiedlicher Aktionsräume durch, indem ein einheitlicher latenter Raum konstruiert wird, in dem ein variationaler Autoencoder, eingeschränkt durch die umgekehrte Kullback-Leibler-Divergenz, Anpassungsaktionen in die Moden der vortrainierten Aktionslatenzverteilung einbettet. Anschließend steuert es während der Feinabstimmung den Generierungsprozess von Diffusions- oder Fluss-basierten VLA-Modellen mittels einer Leitungsmechanik, die die Ausgabeverteilung des Modells in Richtung des Zielbereichs lenkt. Wir führen umfangreiche Experimente zur Manipulation über verschiedene Körperformen und Aufgaben sowohl in Simulation als auch in der realen Welt durch. Im Vergleich zur direkten Feinabstimmung etablierter VLA-Modelle verbessert unsere Methode die durchschnittliche Mehraufgaben-Erfolgsquote in der Simulation um bis zu \textbf{9,8\%} und erreicht in einer realen Umgebung mit Wechsel der Körperform eine bemerkenswerte Steigerung des Erfolgsrates um \textbf{32\%}. Unser Ansatz bietet eine allgemeine und leichtgewichtige Lösung, die die praktische Anwendbarkeit von VLA-Modellen auf neue robotische Plattformen und Aufgaben erheblich verbessert.

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Align-Then-StEer: Anpassung von Vision-Sprache-Aktions-Modellen durch einheitliche latente Steuerung | Forschungsarbeiten | HyperAI