R3M: Eine universelle visuelle Darstellung für Robotermanipulation

Wir untersuchen, wie visuelle Darstellungen, die auf vielfältigen menschlichen Videodaten vortrainiert wurden, eine dateneffiziente Lernung nachgeschalteter roboterbasierter Manipulationsaufgaben ermöglichen. Konkret vortrainieren wir eine visuelle Darstellung mithilfe des Ego4D-Datensatzes menschlicher Videos unter Verwendung einer Kombination aus zeitlicher kontrastiver Lernung, Video-Sprache-Ausrichtung sowie einer L1-Penalität, um spärliche und kompakte Darstellungen zu fördern. Die resultierende Darstellung, R3M, kann als gefrorenes Wahrnehmungsmodul für die nachgeschaltete Politiklernung eingesetzt werden. In einer Reihe von 12 simulierten Roboter-Manipulationsaufgaben zeigen wir, dass R3M die Aufgabenerfolgsrate im Vergleich zur Trainingsanfangsphase um mehr als 20 % und im Vergleich zu state-of-the-art visuellen Darstellungen wie CLIP und MoCo um mehr als 10 % verbessert. Darüber hinaus ermöglicht R3M es einem Franka Emika Panda-Roboterarm, eine Vielzahl von Manipulationsaufgaben in einer realen, überfüllten Wohnung zu erlernen, wobei lediglich 20 Demonstrationen erforderlich sind. Der Quellcode und die vortrainierten Modelle sind unter https://tinyurl.com/robotr3m verfügbar.