HyperAIHyperAI
il y a 2 mois

RoboPoint : Un modèle vision-langage pour la prédiction des affordances spatiales en robotique

Wentao Yuan; Jiafei Duan; Valts Blukis; Wilbert Pumacay; Ranjay Krishna; Adithyavairavan Murali; Arsalan Mousavian; Dieter Fox
RoboPoint : Un modèle vision-langage pour la prédiction des affordances spatiales en robotique
Résumé

De l'organisation d'objets sur une table à la rangement des courses sur des étagères, les robots doivent planifier des points d'action précis pour effectuer leurs tâches de manière exacte et fiable. Malgré l'adoption récente des modèles de langage visuel (VLMs) pour contrôler le comportement des robots, ces modèles peinent à articuler avec précision les actions des robots à l'aide du langage. Nous présentons un pipeline automatique de génération de données synthétiques qui adapte les VLMs aux domaines et besoins robotiques. À l'aide de ce pipeline, nous entraînons RoboPoint, un VLM capable de prédire les points clés d'image (keypoints) offrant des possibilités d'action (affordances) en fonction des instructions linguistiques. Comparé aux approches alternatives, notre méthode ne nécessite aucune collecte de données dans le monde réel ni aucune démonstration humaine, ce qui la rend beaucoup plus adaptable à divers environnements et points de vue. De plus, RoboPoint est un modèle général qui permet plusieurs applications en aval telles que la navigation robotique, la manipulation et l'assistance par réalité augmentée (AR). Nos expériences montrent que RoboPoint surpassent les VLMs de pointe (GPT-4o) et les techniques de visualisation guidée (PIVOT) avec une précision de 21,8 % dans la prédiction des possibilités spatiales d'action et une amélioration de 30,5 % dans le taux de réussite des tâches en aval. Site web du projet : https://robo-point.github.io.

RoboPoint : Un modèle vision-langage pour la prédiction des affordances spatiales en robotique | Articles de recherche récents | HyperAI