HyperAIHyperAI
vor 17 Tagen

Freisetzen von großskaliger videobasierter generativer Vortraining für visuelle Robotermanipulation

Hongtao Wu, Ya Jing, Chilam Cheang, Guangzeng Chen, Jiafeng Xu, Xinghang Li, Minghuan Liu, Hang Li, Tao Kong
Freisetzen von großskaliger videobasierter generativer Vortraining für visuelle Robotermanipulation
Abstract

Generative Pre-Training-Modelle haben in den Bereichen Sprache und Vision erstaunliche Wirksamkeit gezeigt, indem sie nützliche Darstellungen erlernten. In diesem Paper erweitern wir den Anwendungsbereich dieser Wirksamkeit, indem wir nachweisen, dass visuelle Roboter-Manipulation erheblich von einer großskaligen Video-Generativ-Pre-Training-Technik profitieren kann. Wir stellen GR-1 vor, ein einfaches, GPT-artiges Modell, das für mehrfachaufgabenbasierte, sprachgesteuerte visuelle Roboter-Manipulation konzipiert ist. GR-1 nimmt als Eingaben eine Sprachanweisung, eine Folge von Beobachtungsbildern und eine Folge von Roboterzuständen entgegen und prognostiziert sowohl Roboteraktionen als auch zukünftige Bilder in einer end-to-end-Weise. Durch eine flexible Architektur lässt sich GR-1 nahtlos nach einer Vortrainierung auf einem großskaligen Videodatensatz an Roboterdaten fine-tunen. Wir führen umfangreiche Experimente auf der anspruchsvollen CALVIN-Benchmark und auf einem echten Roboter durch. Auf der CALVIN-Benchmark erreicht unsere Methode die besten Ergebnisse im Vergleich zu aktuellen State-of-the-Art-Baselines und steigert die Erfolgsrate von 88,9 % auf 94,9 %. Im Szenario der Zero-Shot-Unseen-Scene-Generalisierung verbessert GR-1 die Erfolgsrate von 53,3 % auf 85,4 %. In Experimenten mit einem echten Roboter übertrifft GR-1 ebenfalls die Baseline-Methoden und zeigt ein hohes Potenzial hinsichtlich der Generalisierung auf unbekannte Szenen und Objekte. Wir liefern erste Belege dafür, dass ein einheitliches, GPT-artiges Transformer-Modell, das durch großskaliges Video-Generativ-Pre-Training erweitert wurde, bemerkenswerte Generalisierungsfähigkeit für mehrfachaufgabenbasierte visuelle Roboter-Manipulation aufweist. Projektseite: https://GR1-Manipulation.github.io

Freisetzen von großskaliger videobasierter generativer Vortraining für visuelle Robotermanipulation | Neueste Forschungsarbeiten | HyperAI