HyperAIHyperAI

Command Palette

Search for a command to run...

villa-X: Verbesserung der latenzbasierten Aktionsmodellierung in visions-sprache-aktions-Modellen

Zusammenfassung

Visual-Language-Action (VLA)-Modelle sind zu einem etablierten Paradigma für die Lernung von Robotermanipulationsstrategien geworden, die Sprachanweisungen folgen und sich auf neue Szenarien generalisieren lassen. In jüngster Zeit wurde begonnen, latente Aktionen – eine abstrakte Darstellung der visuellen Veränderung zwischen zwei Bildern – in die VLA-Vortrainingsphase einzubeziehen. In diesem Paper stellen wir villa-X vor, einen neuartigen Visual-Language-Latent-Action (ViLLA)-Rahmen, der die Modellierung latenter Aktionen zur Lernung generalisierbarer Robotermanipulationsstrategien voranbringt. Unser Ansatz verbessert sowohl die Art und Weise, wie latente Aktionen gelernt werden, als auch deren Integration in das VLA-Vortraining. Zusammen ermöglichen diese Beiträge, dass villa-X eine überlegene Leistung in simulierten Umgebungen wie SIMPLER und LIBERO sowie auf zwei realen Roboterplattformen – einschließlich Greifer- und dexterer Handmanipulation – erzielt. Wir sind überzeugt, dass das ViLLA-Paradigma erhebliches Potenzial besitzt und dass unsere villa-X eine solide Grundlage für zukünftige Forschung bildet.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
villa-X: Verbesserung der latenzbasierten Aktionsmodellierung in visions-sprache-aktions-Modellen | Paper | HyperAI