Octo: Eine Open-Source-Allzweck-Roboterstrategie

Große, auf vielfältigen Roboterdatasets vortrainierte Policies haben das Potenzial, das Lernen von Robotern zu transformieren: Anstatt neue Policies von Grund auf zu trainieren, könnten solche generalistischen Roboterpolicies mit nur geringem, domain-spezifischem Datenmaterial nachtrainiert werden und dennoch eine breite Generalisierung erreichen. Um jedoch in einer Vielzahl von robotischen Lernszenarien, Umgebungen und Aufgaben weit verbreitet anwendbar zu sein, müssen solche Policies unterschiedliche Sensoren und Aktionsräume verarbeiten können, eine Vielzahl gängiger robotischer Plattformen unterstützen und effizient sowie problemlos auf neue Domänen nachtrainiert werden können. In dieser Arbeit legen wir den Grundstein für die Entwicklung von quelloffenen, allgemein anwendbaren, generalistischen Policies für robotische Manipulation. Als ersten Schritt stellen wir Octo vor, eine große, auf Transformers basierende Policy, die auf 800.000 Trajektorien aus dem Open X-Embodiment-Datensatz trainiert wurde – dem bisher umfangreichsten Datensatz für robotische Manipulation. Octo kann über Sprachbefehle oder Zielbilder instruiert werden und kann innerhalb weniger Stunden auf Standard-Consumer-GPUs effektiv auf Robotersysteme mit neuen Sensoreingaben und Aktionsräumen nachtrainiert werden. In Experimenten an neun verschiedenen robotischen Plattformen zeigen wir, dass Octo als vielseitige Policy-Initialisierung dient, die effektiv auf neue Beobachtungs- und Aktionsräume nachtrainiert werden kann. Zudem führen wir detaillierte Ablationen der Entwurfsentscheidungen für das Octo-Modell durch – von der Architektur bis hin zur Trainingsdatenquelle –, um zukünftige Forschung zur Entwicklung generalistischer Robotermodule zu leiten.