RT-2: Vision-Language-Action-Modelle übertragen Web-Wissen auf die robotische Steuerung

Wir untersuchen, wie vision-sprachliche Modelle, die auf internetweiten Daten trainiert wurden, direkt in die end-to-end-Robotersteuerung integriert werden können, um die Generalisierungsfähigkeit zu steigern und emergente semantische Schlussfolgerungen zu ermöglichen. Unser Ziel ist es, ein einziges end-to-end trainiertes Modell zu entwickeln, das sowohl lernt, Roboterbeobachtungen in Aktionen zu überführen, als auch die Vorteile einer großskaligen Vortrainierung auf Sprache und vision-sprachliche Daten aus dem Web nutzen kann. Dazu schlagen wir vor, state-of-the-art vision-sprachliche Modelle gleichzeitig auf Roboter-Trajektoriendaten und internetweiten vision-sprachlichen Aufgaben – wie beispielsweise visuelle Fragenbeantwortung – zu fine-tunen. Im Gegensatz zu anderen Ansätzen präsentieren wir ein einfaches und allgemein gültiges Verfahren, um dieses Ziel zu erreichen: Um sowohl natürliche Sprachantworten als auch Roboteraktionen in ein und dasselbe Format zu bringen, formulieren wir die Aktionen als Texttoken und integrieren sie direkt in das Trainingsset des Modells, genau wie natürliche Sprachtoken. Wir bezeichnen solche Modellkategorien als vision-sprachliche-Aktions-Modelle (VLA, vision-language-action models) und stellen ein Beispiel hierfür vor, das wir RT-2 nennen. Unsere umfassende Evaluation (6.000 Evaluierungstests) zeigt, dass unser Ansatz leistungsfähige Roboterpolitiken ermöglicht und RT-2 eine Reihe von emergenten Fähigkeiten durch die internetweite Vortrainierung erlangt. Dazu gehören eine deutlich verbesserte Generalisierung auf neue Objekte, die Fähigkeit, Befehle zu verstehen, die nicht in den Trainingsdaten des Roboters enthalten waren (z. B. ein Objekt auf eine bestimmte Zahl oder ein Symbol zu legen), sowie die Fähigkeit, grundlegende Schlussfolgerungen im Hinblick auf Benutzerbefehle zu ziehen (z. B. das kleinste oder größte Objekt oder dasjenige, das einem anderen am nächsten liegt, zu wählen). Darüber hinaus zeigen wir, dass die Integration von Chain-of-Thought-Schlussfolgerungen es RT-2 ermöglicht, mehrstufige semantische Reasoning durchzuführen, beispielsweise zu erkennen, welches Objekt als improvisiertes Hammerwerkzeug verwendet werden sollte (eine Steine), oder welcher Getränketyp für eine müde Person am besten geeignet ist (ein Energy Drink).