HyperAIHyperAI

Command Palette

Search for a command to run...

R3M: Eine universelle visuelle Darstellung für Robotermanipulation

Suraj Nair Aravind Rajeswaran Vikash Kumar Chelsea Finn Abhinav Gupta

Zusammenfassung

Wir untersuchen, wie visuelle Darstellungen, die auf vielfältigen menschlichen Videodaten vortrainiert wurden, eine dateneffiziente Lernung nachgeschalteter roboterbasierter Manipulationsaufgaben ermöglichen. Konkret vortrainieren wir eine visuelle Darstellung mithilfe des Ego4D-Datensatzes menschlicher Videos unter Verwendung einer Kombination aus zeitlicher kontrastiver Lernung, Video-Sprache-Ausrichtung sowie einer L1-Penalität, um spärliche und kompakte Darstellungen zu fördern. Die resultierende Darstellung, R3M, kann als gefrorenes Wahrnehmungsmodul für die nachgeschaltete Politiklernung eingesetzt werden. In einer Reihe von 12 simulierten Roboter-Manipulationsaufgaben zeigen wir, dass R3M die Aufgabenerfolgsrate im Vergleich zur Trainingsanfangsphase um mehr als 20 % und im Vergleich zu state-of-the-art visuellen Darstellungen wie CLIP und MoCo um mehr als 10 % verbessert. Darüber hinaus ermöglicht R3M es einem Franka Emika Panda-Roboterarm, eine Vielzahl von Manipulationsaufgaben in einer realen, überfüllten Wohnung zu erlernen, wobei lediglich 20 Demonstrationen erforderlich sind. Der Quellcode und die vortrainierten Modelle sind unter https://tinyurl.com/robotr3m verfügbar.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
R3M: Eine universelle visuelle Darstellung für Robotermanipulation | Paper | HyperAI