HyperAIHyperAI
vor 17 Tagen

GR-MG: Nutzung teilweise annotierter Daten durch multimodale zielgesteuerte Politik

Peiyan Li, Hongtao Wu, Yan Huang, Chilam Cheang, Liang Wang, Tao Kong
GR-MG: Nutzung teilweise annotierter Daten durch multimodale zielgesteuerte Politik
Abstract

Die Robotik-Community strebt kontinuierlich an, verallgemeinerbare Robotermanipulation mit flexiblen natürlichsprachlichen Anweisungen zu erreichen. Eine zentrale Herausforderung besteht darin, Roboterbahnen vollständig mit sowohl Aktionen als auch Texten zu annotieren, was zeitaufwendig und arbeitsintensiv ist. Teilweise annotierte Daten hingegen – beispielsweise menschliche Aktivitätsvideos ohne Aktionsetiketten oder Roboterbahnen ohne Textetiketten – sind dagegen viel einfacher zu sammeln. Können wir diese Daten nutzen, um die Verallgemeinerungsfähigkeit von Robotern zu verbessern? In diesem Paper stellen wir GR-MG vor, eine neuartige Methode, die sowohl auf einer Textanweisung als auch auf einem Zielbild bedingt. Während des Trainings wählt GR-MG Zielbilder aus Bahnen aus und bedingt entweder auf Text und Zielbild oder ausschließlich auf das Bild, falls kein Text verfügbar ist. Während der Inferenz, bei der lediglich ein Text gegeben ist, generiert GR-MG das Zielbild mittels eines diffusionbasierten Bildbearbeitungsmodells und bedingt dann auf Text und generiertes Bild. Dieser Ansatz ermöglicht es GR-MG, große Mengen teilweise annotierter Daten zu nutzen, während weiterhin Sprache zur flexiblen Spezifikation von Aufgaben genutzt wird. Um präzise Zielbilder zu generieren, schlagen wir ein neuartiges, fortschrittsgeleitetes Modell zur Zielbildgenerierung vor, das Informationsübertragung über den Aufgabenfortschritt in den Generierungsprozess integriert. In Simulationsexperimenten verbessert GR-MG die durchschnittliche Anzahl abgeschlossener Aufgaben in einer Reihe von 5 von 3,35 auf 4,04. In Experimenten mit echten Robotern kann GR-MG 58 verschiedene Aufgaben ausführen und die Erfolgsrate sowohl in einfachen als auch in generalisierenden Szenarien von 68,7 % auf 78,1 % und von 44,4 % auf 60,6 % steigern. Zudem übertrifft GR-MG vergleichbare Baseline-Methoden bei der Few-Shot-Lernung neuer Fähigkeiten. Video-Demos, Code und Checkpoints sind auf der Projektseite verfügbar: https://gr-mg.github.io/.

GR-MG: Nutzung teilweise annotierter Daten durch multimodale zielgesteuerte Politik | Neueste Forschungsarbeiten | HyperAI