RoboRefer: 로봇을 위한 시각-언어 모델에서 추론을 통한 공간 지시어 사용

공간 참조는 물리적 3차원 세계와 상호작용하기 위한 구현된 로봇의 기본적인 능력입니다. 그러나 강력한 사전 훈련된 비전-언어 모델(VLMs)을 사용하더라도, 최근 접근 방식들은 여전히 복잡한 3D 장면을 정확하게 이해하고 상호작용을 위한 지시사항에 따른 위치를 동적으로 추론하는 데 부족합니다. 이를 해결하기 위해, 우리는 RoboRefer를 제안합니다. 이는 감독된 미세 조정(SFT)을 통해 분리되지만 전용 깊이 인코더를 통합하여 정밀한 공간 이해를 달성할 수 있는 3D 인식 VLM입니다. 또한, RoboRefer는 공간 참조 작업에 맞춤화된 거리 민감형 프로세스 보상 함수를 사용하여 강화학습 미세 조정(RFT)을 통해 일반화된 다단계 공간 추론을 발전시킵니다. SFT 및 RFT 훈련을 지원하기 위해, 우리는 20M 개의 질문-답변 쌍(기존 대비 2배)으로 구성되고 31개의 공간 관계(기존 대비 15개)를 포함하며 복잡한 추론 과정(최대 5단계까지)을 지원하는 대규모 데이터셋인 RefSpatial를 소개합니다. 또한, 다단계 추론을 평가하는 데 있어 공백을 메우는 도전적인 벤치마크인 RefSpatial-Bench를 소개합니다. 실험 결과, SFT 훈련된 RoboRefer는 평균 성공률 89.6%로 최고 수준의 공간 이해력을 달성했습니다. RFT 훈련된 RoboRefer는 RefSpatial-Bench에서 평균 정확도가 Gemini-2.5-Pro보다 17.4% 높아 모든 다른 기준 모델들을 크게 앞섰습니다. 특히, RoboRefer는 다양한 제어 정책과 통합되어 실제 세계의 혼잡한 환경에서 다양한 로봇(예: UR5, G1 인간형 로봇)에게 장기적이고 동적인 작업을 수행하도록 할 수 있습니다.