vor 14 Stunden

villa-X: Verbesserung der latenzbasierten Aktionsmodellierung in visions-sprache-aktions-Modellen

Xiaoyu Chen, Hangxing Wei, Pushi Zhang, Chuheng Zhang, Kaixin Wang, Yanjiang Guo, Rushuai Yang, Yucen Wang, Xinquan Xiao, Li Zhao, Jianyu Chen, Jiang Bian

Details der Forschungsarbeit anzeigen View Code

villa-X: Verbesserung der latenzbasierten Aktionsmodellierung in visions-sprache-aktions-Modellen

Abstract

Visual-Language-Action (VLA)-Modelle sind zu einem etablierten Paradigma für die Lernung von Robotermanipulationsstrategien geworden, die Sprachanweisungen folgen und sich auf neue Szenarien generalisieren lassen. In jüngster Zeit wurde begonnen, latente Aktionen – eine abstrakte Darstellung der visuellen Veränderung zwischen zwei Bildern – in die VLA-Vortrainingsphase einzubeziehen. In diesem Paper stellen wir villa-X vor, einen neuartigen Visual-Language-Latent-Action (ViLLA)-Rahmen, der die Modellierung latenter Aktionen zur Lernung generalisierbarer Robotermanipulationsstrategien voranbringt. Unser Ansatz verbessert sowohl die Art und Weise, wie latente Aktionen gelernt werden, als auch deren Integration in das VLA-Vortraining. Zusammen ermöglichen diese Beiträge, dass villa-X eine überlegene Leistung in simulierten Umgebungen wie SIMPLER und LIBERO sowie auf zwei realen Roboterplattformen – einschließlich Greifer- und dexterer Handmanipulation – erzielt. Wir sind überzeugt, dass das ViLLA-Paradigma erhebliches Potenzial besitzt und dass unsere villa-X eine solide Grundlage für zukünftige Forschung bildet.