HyperAIHyperAI

Command Palette

Search for a command to run...

Freisetzen von großskaliger videobasierter generativer Vortraining für visuelle Robotermanipulation

Hongtao Wu Ya Jing Chilam Cheang Guangzeng Chen Jiafeng Xu Xinghang Li Minghuan Liu Hang Li Tao Kong

Zusammenfassung

Generative Pre-Training-Modelle haben in den Bereichen Sprache und Vision erstaunliche Wirksamkeit gezeigt, indem sie nützliche Darstellungen erlernten. In diesem Paper erweitern wir den Anwendungsbereich dieser Wirksamkeit, indem wir nachweisen, dass visuelle Roboter-Manipulation erheblich von einer großskaligen Video-Generativ-Pre-Training-Technik profitieren kann. Wir stellen GR-1 vor, ein einfaches, GPT-artiges Modell, das für mehrfachaufgabenbasierte, sprachgesteuerte visuelle Roboter-Manipulation konzipiert ist. GR-1 nimmt als Eingaben eine Sprachanweisung, eine Folge von Beobachtungsbildern und eine Folge von Roboterzuständen entgegen und prognostiziert sowohl Roboteraktionen als auch zukünftige Bilder in einer end-to-end-Weise. Durch eine flexible Architektur lässt sich GR-1 nahtlos nach einer Vortrainierung auf einem großskaligen Videodatensatz an Roboterdaten fine-tunen. Wir führen umfangreiche Experimente auf der anspruchsvollen CALVIN-Benchmark und auf einem echten Roboter durch. Auf der CALVIN-Benchmark erreicht unsere Methode die besten Ergebnisse im Vergleich zu aktuellen State-of-the-Art-Baselines und steigert die Erfolgsrate von 88,9 % auf 94,9 %. Im Szenario der Zero-Shot-Unseen-Scene-Generalisierung verbessert GR-1 die Erfolgsrate von 53,3 % auf 85,4 %. In Experimenten mit einem echten Roboter übertrifft GR-1 ebenfalls die Baseline-Methoden und zeigt ein hohes Potenzial hinsichtlich der Generalisierung auf unbekannte Szenen und Objekte. Wir liefern erste Belege dafür, dass ein einheitliches, GPT-artiges Transformer-Modell, das durch großskaliges Video-Generativ-Pre-Training erweitert wurde, bemerkenswerte Generalisierungsfähigkeit für mehrfachaufgabenbasierte visuelle Roboter-Manipulation aufweist. Projektseite: https://GR1-Manipulation.github.io


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp