vor 11 Tagen

RT-2: Vision-Language-Action-Modelle übertragen Web-Wissen auf die robotische Steuerung

Anthony Brohan, Noah Brown, Justice Carbajal, Yevgen Chebotar, Xi Chen, Krzysztof Choromanski, Tianli Ding, Danny Driess, Avinava Dubey, Chelsea Finn, Pete Florence, Chuyuan Fu, Montse Gonzalez Arenas, Keerthana Gopalakrishnan, Kehang Han, Karol Hausman, Alexander Herzog, Jasmine Hsu, Brian Ichter, Alex Irpan, Nikhil Joshi, Ryan Julian, Dmitry Kalashnikov, Yuheng Kuang, Isabel Leal, Lisa Lee, Tsang-Wei Edward Lee, Sergey Levine, Yao Lu, Henryk Michalewski, Igor Mordatch, Karl Pertsch, Kanishka Rao, Krista Reymann, Michael Ryoo, Grecia Salazar, Pannag Sanketi, Pierre Sermanet, Jaspiar Singh, Anikait Singh, Radu Soricut, Huong Tran, Vincent Vanhoucke, Quan Vuong, Ayzaan Wahid, Stefan Welker, Paul Wohlhart, Jialin Wu, Fei Xia, Ted Xiao, Peng Xu, Sichun Xu, Tianhe Yu, Brianna Zitkovich

Details der Forschungsarbeit anzeigen

RT-2: Vision-Language-Action-Modelle übertragen Web-Wissen auf die robotische Steuerung

Abstract

Wir untersuchen, wie vision-sprachliche Modelle, die auf internetweiten Daten trainiert wurden, direkt in die end-to-end-Robotersteuerung integriert werden können, um die Generalisierungsfähigkeit zu steigern und emergente semantische Schlussfolgerungen zu ermöglichen. Unser Ziel ist es, ein einziges end-to-end trainiertes Modell zu entwickeln, das sowohl lernt, Roboterbeobachtungen in Aktionen zu überführen, als auch die Vorteile einer großskaligen Vortrainierung auf Sprache und vision-sprachliche Daten aus dem Web nutzen kann. Dazu schlagen wir vor, state-of-the-art vision-sprachliche Modelle gleichzeitig auf Roboter-Trajektoriendaten und internetweiten vision-sprachlichen Aufgaben – wie beispielsweise visuelle Fragenbeantwortung – zu fine-tunen. Im Gegensatz zu anderen Ansätzen präsentieren wir ein einfaches und allgemein gültiges Verfahren, um dieses Ziel zu erreichen: Um sowohl natürliche Sprachantworten als auch Roboteraktionen in ein und dasselbe Format zu bringen, formulieren wir die Aktionen als Texttoken und integrieren sie direkt in das Trainingsset des Modells, genau wie natürliche Sprachtoken. Wir bezeichnen solche Modellkategorien als vision-sprachliche-Aktions-Modelle (VLA, vision-language-action models) und stellen ein Beispiel hierfür vor, das wir RT-2 nennen. Unsere umfassende Evaluation (6.000 Evaluierungstests) zeigt, dass unser Ansatz leistungsfähige Roboterpolitiken ermöglicht und RT-2 eine Reihe von emergenten Fähigkeiten durch die internetweite Vortrainierung erlangt. Dazu gehören eine deutlich verbesserte Generalisierung auf neue Objekte, die Fähigkeit, Befehle zu verstehen, die nicht in den Trainingsdaten des Roboters enthalten waren (z. B. ein Objekt auf eine bestimmte Zahl oder ein Symbol zu legen), sowie die Fähigkeit, grundlegende Schlussfolgerungen im Hinblick auf Benutzerbefehle zu ziehen (z. B. das kleinste oder größte Objekt oder dasjenige, das einem anderen am nächsten liegt, zu wählen). Darüber hinaus zeigen wir, dass die Integration von Chain-of-Thought-Schlussfolgerungen es RT-2 ermöglicht, mehrstufige semantische Reasoning durchzuführen, beispielsweise zu erkennen, welches Objekt als improvisiertes Hammerwerkzeug verwendet werden sollte (eine Steine), oder welcher Getränketyp für eine müde Person am besten geeignet ist (ein Energy Drink).