16일 전

SpatialVLM: 시각-언어 모델에 공간적 추론 능력 부여하기

Boyuan Chen, Zhuo Xu, Sean Kirmani, Brian Ichter, Danny Driess, Pete Florence, Dorsa Sadigh, Leonidas Guibas, Fei Xia
SpatialVLM: 시각-언어 모델에 공간적 추론 능력 부여하기
초록

공간 관계에 대한 이해와 추론은 시각질의응답(VQA) 및 로봇공학 분야에서 핵심적인 능력이다. 비전-언어 모델(VLM)은 특정 VQA 벤치마크에서 놀라운 성능을 보여주고 있으나, 거리나 크기 차이와 같은 물리적 객체 간의 정량적 관계를 인식하는 3차원 공간 추론 능력은 여전히 부족하다. 우리는 VLM의 제한된 공간 추론 능력이 훈련 데이터에 3차원 공간 지식이 부족하기 때문이라고 가정하고, 인터넷 규모의 공간 추론 데이터를 활용해 VLM을 훈련함으로써 이 문제를 해결하고자 한다. 이를 위해 본 연구는 이러한 접근을 촉진하기 위한 시스템을 제안한다. 먼저, 1,000만 장의 실세계 이미지 기반으로 20억 개의 VQA 예제에 이르는 자동화된 3차원 공간 VQA 데이터 생성 프레임워크를 개발하였다. 이후 데이터 품질, 훈련 파이프라인, VLM 아키텍처 등 다양한 훈련 요소를 탐색하였다. 본 연구는 정량적 공간 추론을 가능하게 하는 메트릭 공간 기반의 세계 최초의 인터넷 규모 3차원 공간 추론 데이터셋을 특징으로 한다. 이러한 데이터를 기반으로 VLM을 훈련함으로써, 질적 및 정량적 공간 VQA 모두에서 모델의 능력이 크게 향상됨을 입증하였다. 마지막으로, 본 VLM이 정량적 추정 능력을 갖추고 있어 사고의 흐름(chain-of-thought) 기반 공간 추론 및 로봇공학 분야에서 새로운 하류 응용을 가능하게 함을 보여주었다. 프로젝트 웹사이트: https://spatial-vlm.github.io/

SpatialVLM: 시각-언어 모델에 공간적 추론 능력 부여하기 | 최신 연구 논문 | HyperAI초신경