HyperAI
vor 14 Stunden

villa-X: Verbesserung der latenzbasierten Aktionsmodellierung in visions-sprache-aktions-Modellen

Xiaoyu Chen, Hangxing Wei, Pushi Zhang, Chuheng Zhang, Kaixin Wang, Yanjiang Guo, Rushuai Yang, Yucen Wang, Xinquan Xiao, Li Zhao, Jianyu Chen, Jiang Bian
villa-X: Verbesserung der latenzbasierten Aktionsmodellierung in visions-sprache-aktions-Modellen
Abstract

Visual-Language-Action (VLA)-Modelle sind zu einem etablierten Paradigma für die Lernung von Robotermanipulationsstrategien geworden, die Sprachanweisungen folgen und sich auf neue Szenarien generalisieren lassen. In jüngster Zeit wurde begonnen, latente Aktionen – eine abstrakte Darstellung der visuellen Veränderung zwischen zwei Bildern – in die VLA-Vortrainingsphase einzubeziehen. In diesem Paper stellen wir villa-X vor, einen neuartigen Visual-Language-Latent-Action (ViLLA)-Rahmen, der die Modellierung latenter Aktionen zur Lernung generalisierbarer Robotermanipulationsstrategien voranbringt. Unser Ansatz verbessert sowohl die Art und Weise, wie latente Aktionen gelernt werden, als auch deren Integration in das VLA-Vortraining. Zusammen ermöglichen diese Beiträge, dass villa-X eine überlegene Leistung in simulierten Umgebungen wie SIMPLER und LIBERO sowie auf zwei realen Roboterplattformen – einschließlich Greifer- und dexterer Handmanipulation – erzielt. Wir sind überzeugt, dass das ViLLA-Paradigma erhebliches Potenzial besitzt und dass unsere villa-X eine solide Grundlage für zukünftige Forschung bildet.