11일 전

SpatialBot: 시각언어모델을 활용한 정밀한 공간 인지

Wenxiao Cai, Iaroslav Ponomarenko, Jianhao Yuan, Xiaoqi Li, Wankou Yang, Hao Dong, Bo Zhao
SpatialBot: 시각언어모델을 활용한 정밀한 공간 인지
초록

시각 언어 모델(VLMs)은 2차원 이미지 이해 분야에서 놀라운 성능을 달성했지만, 몸체화된 인공지능(Embodied AI)의 기초가 되는 공간 인식 능력에서는 여전히 어려움을 겪고 있다. 본 논문에서는 RGB 이미지와 깊이 이미지를 동시에 입력함으로써 더 나은 공간 인식을 가능하게 하는 SpatialBot을 제안한다. 또한, 깊이 정보와 관련된 다수의 수준별 질문을 포함하는 SpatialQA 데이터셋을 구축하여 VLMs의 깊이 이해 능력을 향상시키기 위한 훈련을 가능하게 했다. 마지막으로, 공간 인식 능력의 다양한 수준에서 VLMs의 성능을 종합적으로 평가할 수 있는 SpatialBench를 제안한다. 본 연구에서 제안한 공간 인식 기준 평가 벤치마크, 일반적인 VLM 평가 벤치마크 및 몸체화된 인공지능 임무에서 실시한 광범위한 실험 결과를 통해, SpatialQA 데이터셋으로 훈련된 SpatialBot이 뛰어난 성능 향상을 보였음을 확인할 수 있었다. 모델, 코드 및 데이터는 https://github.com/BAAI-DCAI/SpatialBot 에서 공개되어 있다.

SpatialBot: 시각언어모델을 활용한 정밀한 공간 인지 | 최신 연구 논문 | HyperAI초신경