RT-1: Robotics Transformer für die Steuerung in der realen Welt im großen Maßstab

Durch die Übertragung von Wissen aus großen, vielfältigen, aufgabenunabhängigen Datensätzen können moderne maschinelle Lernmodelle spezifische Anwendungsaufgaben entweder zero-shot oder mit kleinen, aufgabebezogenen Datensätzen auf einem hohen Leistungsniveau lösen. Obwohl diese Fähigkeit in anderen Bereichen wie Computer Vision, Natural Language Processing oder Spracherkennung bereits nachgewiesen wurde, bleibt sie in der Robotik noch zu zeigen, wo die Generalisierungsfähigkeit der Modelle aufgrund der Schwierigkeit der Datensammlung in der realen Welt besonders entscheidend ist. Wir argumentieren, dass eines der Schlüssel zum Erfolg solcher allgemeiner Robotermodelle in einer offenen, aufgabenunabhängigen Trainingsstrategie liegt, kombiniert mit hochkapazitativen Architekturen, die in der Lage sind, alle Arten vielfältiger roboterbezogener Daten aufzunehmen. In diesem Paper stellen wir eine Modellklasse vor, die als Robotics Transformer bezeichnet wird und vielversprechende skalierbare Modellmerkmale aufweist. Unsere Schlussfolgerungen bestätigen wir in einer Studie verschiedener Modellklassen und ihrer Generalisierungsfähigkeit in Abhängigkeit von der Datengröße, Modellgröße und Datenvielfalt, basierend auf einer groß angelegten Datensammlung aus echten Robotern, die echte Alltagsaufgaben ausführen. Die Projekt-Website und Videos finden sich unter robotics-transformer1.github.io