vor 2 Monaten

Zu generalisierbaren visuellen und sprachlichen Robotermanipulationen: Eine Benchmarkevaluation und LLM-gesteuerte 3D-Politik

Ricardo Garcia; Shizhe Chen; Cordelia Schmid

Abstract

Die Verallgemeinerung von sprachbedingten Robotikstrategien auf neue Aufgaben bleibt eine erhebliche Herausforderung, die durch den Mangel an geeigneten Simulationsbenchmarks erschwert wird. In dieser Arbeit schließen wir diese Lücke, indem wir GemBench vorstellen, ein neues Benchmarking-Tool zur Bewertung der Verallgemeinerungsfähigkeiten von Vision-Sprache-Robotik-Manipulationsstrategien. GemBench umfasst sieben allgemeine Aktionen und vier Verallgemeinerungsstufen, die sich von neuen Positionierungen über starre und gelenkige Objekte bis hin zu komplexen langfristigen Aufgaben erstrecken. Wir bewerten state-of-the-art Ansätze anhand von GemBench und stellen auch eine neue Methode vor. Unser Ansatz 3D-LOTUS nutzt reichhaltige 3D-Informationen für die Aktionsschätzung unter sprachlicher Bedingung. Obwohl 3D-LOTUS sowohl in Effizienz als auch in Leistung bei bekannten Aufgaben hervorragt, hat es Schwierigkeiten mit neuen Aufgaben. Um dies zu beheben, präsentieren wir 3D-LOTUS++, einen Rahmen, der die Bewegungsplanungsfähigkeiten von 3D-LOTUS mit den Aufgabenplanungsfähigkeiten von LLMs (Large Language Models) und der Objektverortungsgenauigkeit von VLMs (Vision-Language Models) integriert. 3D-LOTUS++ erreicht state-of-the-art Leistung bei neuen Aufgaben des GemBench und setzt damit einen neuen Standard für die Verallgemeinerung in der Robotikmanipulation. Das Benchmarking-Tool, die Codes und die trainierten Modelle sind unter https://www.di.ens.fr/willow/research/gembench/ verfügbar.