vor 6 Monaten

Zusammenfassung

Die Nutzung von Vision-Language-Modellen (VLMs) für die robotische Manipulation stellt ein neuartiges Paradigma dar, das darauf abzielt, die Fähigkeit des Modells zu verbessern, sich auf neue Objekte und Anweisungen zu verallgemeinern. Aufgrund von Unterschieden in Kameraparametern und Montagepositionen zeigen bestehende Ansätze jedoch erhebliche Leistungsunterschiede zwischen verschiedenen robotischen Plattformen. Um diese Herausforderung zu bewältigen, stellen wir in diesem Paper RoboUniView vor – einen innovativen Ansatz, der die visuelle Merkmalsextraktion von der Aktionserlernung entkoppelt. Zunächst erlernen wir durch Vortraining auf leicht zugänglichen Daten eine einheitliche Sichtrepräsentation aus mehreren Perspektiven und leiten anschließend Aktionen aus dieser einheitlichen Sichtrepräsentation ab, um die robotische Manipulation zu steuern. Diese einheitliche Sichtrepräsentation spiegelt die physische Welt genauer wider und ist nicht durch die Kameraparameter der jeweiligen robotischen Plattform eingeschränkt. Dank dieser Methodik erreichen wir state-of-the-art-Leistungen auf der anspruchsvollen CALVIN-Benchmark, wobei die Erfolgsrate im $D \to D$ -Setting von 93,0 % auf 96,2 % und im $ABC \to D$ -Setting von 92,2 % auf 94,2 % steigt. Darüber hinaus zeigt unser Modell herausragende Anpassungsfähigkeit und Flexibilität: Es behält hohe Leistung auch bei bisher unbekannten Kameraparametern bei, kann mehrere Datensätze mit unterschiedlichen Kameraparametern nutzen und ist in der Lage, gemeinsam über Datensätze hinweg Aufgaben zu lernen. Der Quellcode ist zur Nachvollziehbarkeit bereitgestellt: https://github.com/liufanfanlff/RoboUniview

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Multimodale Darstellung

Fanfan Liu Feng Yan Liming Zheng Chengjian Feng Yiyang Huang Lin Ma

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Multimodale Darstellung

Fanfan Liu Feng Yan Liming Zheng Chengjian Feng Yiyang Huang Lin Ma

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

RoboUniView: Visuell-sprachliches Modell mit einheitlicher Sichtbarkeitsdarstellung für die robotische Manipulation

Fanfan Liu Feng Yan Liming Zheng Chengjian Feng Yiyang Huang Lin Ma

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

RoboUniView: Visuell-sprachliches Modell mit einheitlicher Sichtbarkeitsdarstellung für die robotische Manipulation

Fanfan Liu Feng Yan Liming Zheng Chengjian Feng Yiyang Huang Lin Ma

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

RoboUniView: Visuell-sprachliches Modell mit einheitlicher Sichtbarkeitsdarstellung für die robotische Manipulation

Fanfan Liu Feng Yan Liming Zheng Chengjian Feng Yiyang Huang Lin Ma

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters