vor 6 Monaten

Zusammenfassung

Die Robotik-Community strebt kontinuierlich an, verallgemeinerbare Robotermanipulation mit flexiblen natürlichsprachlichen Anweisungen zu erreichen. Eine zentrale Herausforderung besteht darin, Roboterbahnen vollständig mit sowohl Aktionen als auch Texten zu annotieren, was zeitaufwendig und arbeitsintensiv ist. Teilweise annotierte Daten hingegen – beispielsweise menschliche Aktivitätsvideos ohne Aktionsetiketten oder Roboterbahnen ohne Textetiketten – sind dagegen viel einfacher zu sammeln. Können wir diese Daten nutzen, um die Verallgemeinerungsfähigkeit von Robotern zu verbessern? In diesem Paper stellen wir GR-MG vor, eine neuartige Methode, die sowohl auf einer Textanweisung als auch auf einem Zielbild bedingt. Während des Trainings wählt GR-MG Zielbilder aus Bahnen aus und bedingt entweder auf Text und Zielbild oder ausschließlich auf das Bild, falls kein Text verfügbar ist. Während der Inferenz, bei der lediglich ein Text gegeben ist, generiert GR-MG das Zielbild mittels eines diffusionbasierten Bildbearbeitungsmodells und bedingt dann auf Text und generiertes Bild. Dieser Ansatz ermöglicht es GR-MG, große Mengen teilweise annotierter Daten zu nutzen, während weiterhin Sprache zur flexiblen Spezifikation von Aufgaben genutzt wird. Um präzise Zielbilder zu generieren, schlagen wir ein neuartiges, fortschrittsgeleitetes Modell zur Zielbildgenerierung vor, das Informationsübertragung über den Aufgabenfortschritt in den Generierungsprozess integriert. In Simulationsexperimenten verbessert GR-MG die durchschnittliche Anzahl abgeschlossener Aufgaben in einer Reihe von 5 von 3,35 auf 4,04. In Experimenten mit echten Robotern kann GR-MG 58 verschiedene Aufgaben ausführen und die Erfolgsrate sowohl in einfachen als auch in generalisierenden Szenarien von 68,7 % auf 78,1 % und von 44,4 % auf 60,6 % steigern. Zudem übertrifft GR-MG vergleichbare Baseline-Methoden bei der Few-Shot-Lernung neuer Fähigkeiten. Video-Demos, Code und Checkpoints sind auf der Projektseite verfügbar: https://gr-mg.github.io/.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 6 Monaten

Peiyan Li Hongtao Wu Yan Huang Chilam Cheang Liang Wang Tao Kong

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

vor 6 Monaten

Peiyan Li Hongtao Wu Yan Huang Chilam Cheang Liang Wang Tao Kong

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

GR-MG: Nutzung teilweise annotierter Daten durch multimodale zielgesteuerte Politik | Paper | HyperAI

Command Palette

GR-MG: Nutzung teilweise annotierter Daten durch multimodale zielgesteuerte Politik

Peiyan Li Hongtao Wu Yan Huang Chilam Cheang Liang Wang Tao Kong

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

GR-MG: Nutzung teilweise annotierter Daten durch multimodale zielgesteuerte Politik

Peiyan Li Hongtao Wu Yan Huang Chilam Cheang Liang Wang Tao Kong

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

GR-MG: Nutzung teilweise annotierter Daten durch multimodale zielgesteuerte Politik

Peiyan Li Hongtao Wu Yan Huang Chilam Cheang Liang Wang Tao Kong

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters