HyperAIHyperAI

Command Palette

Search for a command to run...

RoboUniView: Visuell-sprachliches Modell mit einheitlicher Sichtbarkeitsdarstellung für die robotische Manipulation

Fanfan Liu Feng Yan Liming Zheng Chengjian Feng Yiyang Huang Lin Ma

Zusammenfassung

Die Nutzung von Vision-Language-Modellen (VLMs) für die robotische Manipulation stellt ein neuartiges Paradigma dar, das darauf abzielt, die Fähigkeit des Modells zu verbessern, sich auf neue Objekte und Anweisungen zu verallgemeinern. Aufgrund von Unterschieden in Kameraparametern und Montagepositionen zeigen bestehende Ansätze jedoch erhebliche Leistungsunterschiede zwischen verschiedenen robotischen Plattformen. Um diese Herausforderung zu bewältigen, stellen wir in diesem Paper RoboUniView vor – einen innovativen Ansatz, der die visuelle Merkmalsextraktion von der Aktionserlernung entkoppelt. Zunächst erlernen wir durch Vortraining auf leicht zugänglichen Daten eine einheitliche Sichtrepräsentation aus mehreren Perspektiven und leiten anschließend Aktionen aus dieser einheitlichen Sichtrepräsentation ab, um die robotische Manipulation zu steuern. Diese einheitliche Sichtrepräsentation spiegelt die physische Welt genauer wider und ist nicht durch die Kameraparameter der jeweiligen robotischen Plattform eingeschränkt. Dank dieser Methodik erreichen wir state-of-the-art-Leistungen auf der anspruchsvollen CALVIN-Benchmark, wobei die Erfolgsrate im DDD \to DDD-Setting von 93,0 % auf 96,2 % und im ABCDABC \to DABCD-Setting von 92,2 % auf 94,2 % steigt. Darüber hinaus zeigt unser Modell herausragende Anpassungsfähigkeit und Flexibilität: Es behält hohe Leistung auch bei bisher unbekannten Kameraparametern bei, kann mehrere Datensätze mit unterschiedlichen Kameraparametern nutzen und ist in der Lage, gemeinsam über Datensätze hinweg Aufgaben zu lernen. Der Quellcode ist zur Nachvollziehbarkeit bereitgestellt: https://github.com/liufanfanlff/RoboUniview


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp