Command Palette
Search for a command to run...
RoboUniView: Visuell-sprachliches Modell mit einheitlicher Sichtbarkeitsdarstellung für die robotische Manipulation
RoboUniView: Visuell-sprachliches Modell mit einheitlicher Sichtbarkeitsdarstellung für die robotische Manipulation
Fanfan Liu Feng Yan Liming Zheng Chengjian Feng Yiyang Huang Lin Ma
Zusammenfassung
Die Nutzung von Vision-Language-Modellen (VLMs) für die robotische Manipulation stellt ein neuartiges Paradigma dar, das darauf abzielt, die Fähigkeit des Modells zu verbessern, sich auf neue Objekte und Anweisungen zu verallgemeinern. Aufgrund von Unterschieden in Kameraparametern und Montagepositionen zeigen bestehende Ansätze jedoch erhebliche Leistungsunterschiede zwischen verschiedenen robotischen Plattformen. Um diese Herausforderung zu bewältigen, stellen wir in diesem Paper RoboUniView vor – einen innovativen Ansatz, der die visuelle Merkmalsextraktion von der Aktionserlernung entkoppelt. Zunächst erlernen wir durch Vortraining auf leicht zugänglichen Daten eine einheitliche Sichtrepräsentation aus mehreren Perspektiven und leiten anschließend Aktionen aus dieser einheitlichen Sichtrepräsentation ab, um die robotische Manipulation zu steuern. Diese einheitliche Sichtrepräsentation spiegelt die physische Welt genauer wider und ist nicht durch die Kameraparameter der jeweiligen robotischen Plattform eingeschränkt. Dank dieser Methodik erreichen wir state-of-the-art-Leistungen auf der anspruchsvollen CALVIN-Benchmark, wobei die Erfolgsrate im D→D-Setting von 93,0 % auf 96,2 % und im ABC→D-Setting von 92,2 % auf 94,2 % steigt. Darüber hinaus zeigt unser Modell herausragende Anpassungsfähigkeit und Flexibilität: Es behält hohe Leistung auch bei bisher unbekannten Kameraparametern bei, kann mehrere Datensätze mit unterschiedlichen Kameraparametern nutzen und ist in der Lage, gemeinsam über Datensätze hinweg Aufgaben zu lernen. Der Quellcode ist zur Nachvollziehbarkeit bereitgestellt: https://github.com/liufanfanlff/RoboUniview