vor 2 Monaten

RoboPoint: Ein Sehens- und Sprachmodell zur räumlichen Affordanzvorhersage für Robotik

Wentao Yuan; Jiafei Duan; Valts Blukis; Wilbert Pumacay; Ranjay Krishna; Adithyavairavan Murali; Arsalan Mousavian; Dieter Fox

Details der Forschungsarbeit anzeigen

RoboPoint: Ein Sehens- und Sprachmodell zur räumlichen Affordanzvorhersage für Robotik

Abstract

Von der Neuordnung von Gegenständen auf einem Tisch bis hin zum Einräumen von Lebensmitteln in Regale müssen Roboter präzise Aktionen planen, um Aufgaben genau und zuverlässig auszuführen. Trotz der jüngsten Einführung von Vision-Language-Modellen (VLMs) zur Steuerung des Roboterverhaltens haben VLMs Schwierigkeiten, die genauen Aktionen der Roboter sprachlich zu artikulieren. Wir stellen eine automatische Pipeline zur Erzeugung synthetischer Daten vor, die VLMs für roboterische Domains und Anforderungen anweist. Mit dieser Pipeline trainieren wir RoboPoint, ein VLM, das Bild-Schlüsselpunkte (keypoint affordances) vorhersagt, wenn es sprachliche Anweisungen erhält. Im Vergleich zu alternativen Ansätzen benötigt unsere Methode keine Datensammlung in der realen Welt oder menschlichen Demonstrationen, was sie viel skalierbarer für verschiedene Umgebungen und Perspektiven macht. Darüber hinaus ist RoboPoint ein allgemeines Modell, das mehrere nachgelagerte Anwendungen wie Roboternavigation, -manipulation und erweiterte Realität (AR) Unterstützung ermöglicht. Unsere Experimente zeigen, dass RoboPoint sowohl bei der Genauigkeit der Vorhersage räumlicher Affordanzen als auch bei dem Erfolgsniveau nachgelagerter Aufgaben den aktuellen Stand der Technik (GPT-4o) und visuelle Prompting-Techniken (PIVOT) um 21,8 % und 30,5 % übertrifft. Projektwebsite: https://robo-point.github.io.