2달 전

RoboPoint: 로봇을 위한 공간 활용성 예측을 위한 시각-언어 모델

Wentao Yuan; Jiafei Duan; Valts Blukis; Wilbert Pumacay; Ranjay Krishna; Adithyavairavan Murali; Arsalan Mousavian; Dieter Fox
RoboPoint: 로봇을 위한 공간 활용성 예측을 위한 시각-언어 모델
초록

테이블 위의 물체를 재배치하거나 장보기를 선반에 정리하는 것과 같이, 로봇은 작업을 정확하고 신뢰성 있게 수행하기 위해 정밀한 행동 점들을 계획해야 합니다. 최근 시각 언어 모델(VLMs)이 로봇의 동작 제어에 활용되고 있지만, VLMs는 언어를 사용하여 로봇의 행동을 정확히 표현하는 데 어려움을 겪고 있습니다. 우리는 로봇 도메인과 요구사항에 맞게 VLMs를 지시 조정(instruction-tune)하기 위한 자동 합성 데이터 생성 파이프라인을 소개합니다. 이 파이프라인을 사용하여, 언어 지시문을 주면 이미지 키포인트 가능성을 예측하는 VLM인 RoboPoint를 훈련시켰습니다. 우리의 방법은 실제 세계 데이터 수집이나 인간의 시연 없이도 다양한 환경과 시점에서 확장성이 뛰어납니다. 또한, RoboPoint는 일반적인 모델로써 로봇 탐색, 조작, 증강 현실(AR) 지원 등의 여러 하위 작업에 활용될 수 있습니다. 실험 결과, RoboPoint는 공간 가능성(spatial affordance) 예측 정확도에서 최신 VLMs(GPT-4o)와 시각적 프롬프팅 기술(PIVOT)보다 21.8% 우수하며, 하위 작업 성공률에서도 30.5% 더 높은 성능을 보였습니다. 프로젝트 웹사이트: https://robo-point.github.io.

RoboPoint: 로봇을 위한 공간 활용성 예측을 위한 시각-언어 모델 | 최신 연구 논문 | HyperAI초신경