HyperAIHyperAI

Command Palette

Search for a command to run...

GR-MG: Nutzung teilweise annotierter Daten durch multimodale zielgesteuerte Politik

Peiyan Li Hongtao Wu Yan Huang Chilam Cheang Liang Wang Tao Kong

Zusammenfassung

Die Robotik-Community strebt kontinuierlich an, verallgemeinerbare Robotermanipulation mit flexiblen natürlichsprachlichen Anweisungen zu erreichen. Eine zentrale Herausforderung besteht darin, Roboterbahnen vollständig mit sowohl Aktionen als auch Texten zu annotieren, was zeitaufwendig und arbeitsintensiv ist. Teilweise annotierte Daten hingegen – beispielsweise menschliche Aktivitätsvideos ohne Aktionsetiketten oder Roboterbahnen ohne Textetiketten – sind dagegen viel einfacher zu sammeln. Können wir diese Daten nutzen, um die Verallgemeinerungsfähigkeit von Robotern zu verbessern? In diesem Paper stellen wir GR-MG vor, eine neuartige Methode, die sowohl auf einer Textanweisung als auch auf einem Zielbild bedingt. Während des Trainings wählt GR-MG Zielbilder aus Bahnen aus und bedingt entweder auf Text und Zielbild oder ausschließlich auf das Bild, falls kein Text verfügbar ist. Während der Inferenz, bei der lediglich ein Text gegeben ist, generiert GR-MG das Zielbild mittels eines diffusionbasierten Bildbearbeitungsmodells und bedingt dann auf Text und generiertes Bild. Dieser Ansatz ermöglicht es GR-MG, große Mengen teilweise annotierter Daten zu nutzen, während weiterhin Sprache zur flexiblen Spezifikation von Aufgaben genutzt wird. Um präzise Zielbilder zu generieren, schlagen wir ein neuartiges, fortschrittsgeleitetes Modell zur Zielbildgenerierung vor, das Informationsübertragung über den Aufgabenfortschritt in den Generierungsprozess integriert. In Simulationsexperimenten verbessert GR-MG die durchschnittliche Anzahl abgeschlossener Aufgaben in einer Reihe von 5 von 3,35 auf 4,04. In Experimenten mit echten Robotern kann GR-MG 58 verschiedene Aufgaben ausführen und die Erfolgsrate sowohl in einfachen als auch in generalisierenden Szenarien von 68,7 % auf 78,1 % und von 44,4 % auf 60,6 % steigern. Zudem übertrifft GR-MG vergleichbare Baseline-Methoden bei der Few-Shot-Lernung neuer Fähigkeiten. Video-Demos, Code und Checkpoints sind auf der Projektseite verfügbar: https://gr-mg.github.io/.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp