HyperAIHyperAI
vor 16 Tagen

R3M: Eine universelle visuelle Darstellung für Robotermanipulation

Suraj Nair, Aravind Rajeswaran, Vikash Kumar, Chelsea Finn, Abhinav Gupta
R3M: Eine universelle visuelle Darstellung für Robotermanipulation
Abstract

Wir untersuchen, wie visuelle Darstellungen, die auf vielfältigen menschlichen Videodaten vortrainiert wurden, eine dateneffiziente Lernung nachgeschalteter roboterbasierter Manipulationsaufgaben ermöglichen. Konkret vortrainieren wir eine visuelle Darstellung mithilfe des Ego4D-Datensatzes menschlicher Videos unter Verwendung einer Kombination aus zeitlicher kontrastiver Lernung, Video-Sprache-Ausrichtung sowie einer L1-Penalität, um spärliche und kompakte Darstellungen zu fördern. Die resultierende Darstellung, R3M, kann als gefrorenes Wahrnehmungsmodul für die nachgeschaltete Politiklernung eingesetzt werden. In einer Reihe von 12 simulierten Roboter-Manipulationsaufgaben zeigen wir, dass R3M die Aufgabenerfolgsrate im Vergleich zur Trainingsanfangsphase um mehr als 20 % und im Vergleich zu state-of-the-art visuellen Darstellungen wie CLIP und MoCo um mehr als 10 % verbessert. Darüber hinaus ermöglicht R3M es einem Franka Emika Panda-Roboterarm, eine Vielzahl von Manipulationsaufgaben in einer realen, überfüllten Wohnung zu erlernen, wobei lediglich 20 Demonstrationen erforderlich sind. Der Quellcode und die vortrainierten Modelle sind unter https://tinyurl.com/robotr3m verfügbar.

R3M: Eine universelle visuelle Darstellung für Robotermanipulation | Neueste Forschungsarbeiten | HyperAI