11日前
SpatialBot:視覚言語モデルを用いた高精度な空間理解
Wenxiao Cai, Iaroslav Ponomarenko, Jianhao Yuan, Xiaoqi Li, Wankou Yang, Hao Dong, Bo Zhao

要約
視覚言語モデル(VLMs)は2次元画像の理解において優れた性能を発揮しているが、体現型AI(Embodied AI)の基盤となる空間理解能力については依然として課題を抱えている。本論文では、RGB画像と深度画像の両方を入力することで、より優れた空間理解を実現するためのモデル「SpatialBot」を提案する。さらに、深度情報に関連する多段階の質問を含む「SpatialQA」データセットを構築し、VLMsの深度理解能力を訓練するための基盤を提供した。また、空間理解におけるVLMの能力を異なるレベルで包括的に評価できる「SpatialBench」を提案した。当該空間理解ベンチマーク、一般的なVLMベンチマーク、および体現型AIタスクにおける広範な実験により、SpatialQAで学習されたSpatialBotが顕著な性能向上を示すことが実証された。モデル、コード、データは、https://github.com/BAAI-DCAI/SpatialBot にて公開されている。