HyperAIHyperAI

Command Palette

Search for a command to run...

RoboPoint: Ein Sehens- und Sprachmodell zur räumlichen Affordanzvorhersage für Robotik

Wentao Yuan Jiafei Duan Vals Blukis Wilbert Pumacay Ranjay Krishna Adithyavairavan Murali Arshalan Mousavian Dieter Fox

Zusammenfassung

Von der Neuordnung von Gegenständen auf einem Tisch bis hin zum Einräumen von Lebensmitteln in Regale müssen Roboter präzise Aktionen planen, um Aufgaben genau und zuverlässig auszuführen. Trotz der jüngsten Einführung von Vision-Language-Modellen (VLMs) zur Steuerung des Roboterverhaltens haben VLMs Schwierigkeiten, die genauen Aktionen der Roboter sprachlich zu artikulieren. Wir stellen eine automatische Pipeline zur Erzeugung synthetischer Daten vor, die VLMs für roboterische Domains und Anforderungen anweist. Mit dieser Pipeline trainieren wir RoboPoint, ein VLM, das Bild-Schlüsselpunkte (keypoint affordances) vorhersagt, wenn es sprachliche Anweisungen erhält. Im Vergleich zu alternativen Ansätzen benötigt unsere Methode keine Datensammlung in der realen Welt oder menschlichen Demonstrationen, was sie viel skalierbarer für verschiedene Umgebungen und Perspektiven macht. Darüber hinaus ist RoboPoint ein allgemeines Modell, das mehrere nachgelagerte Anwendungen wie Roboternavigation, -manipulation und erweiterte Realität (AR) Unterstützung ermöglicht. Unsere Experimente zeigen, dass RoboPoint sowohl bei der Genauigkeit der Vorhersage räumlicher Affordanzen als auch bei dem Erfolgsniveau nachgelagerter Aufgaben den aktuellen Stand der Technik (GPT-4o) und visuelle Prompting-Techniken (PIVOT) um 21,8 % und 30,5 % übertrifft. Projektwebsite: https://robo-point.github.io.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
RoboPoint: Ein Sehens- und Sprachmodell zur räumlichen Affordanzvorhersage für Robotik | Paper | HyperAI