11日前
SpatialVLM:視覚言語モデルに空間推論能力を付与する
Boyuan Chen, Zhuo Xu, Sean Kirmani, Brian Ichter, Danny Driess, Pete Florence, Dorsa Sadigh, Leonidas Guibas, Fei Xia

要約
空間関係の理解と推論は、視覚質問応答(VQA)およびロボティクスにおいて基本的な能力である。視覚言語モデル(VLM)は、特定のVQAベンチマークにおいて優れた性能を示しているが、距離やサイズの違いといった物理的対象の定量的関係を認識するような3次元空間推論能力にはまだ欠如している。本研究では、VLMの空間推論能力の制限が、学習データに3次元空間知識が不足していることによるものであると仮説を立て、インターネット規模の空間推論データを用いたVLMの訓練によってこの課題を解決することを目的とする。そのため、本研究ではこのアプローチを促進するシステムを提案する。まず、1000万枚の実世界画像を対象に、20億件のVQA例にまでスケーラブルな自動3次元空間VQAデータ生成フレームワークを開発した。次に、データ品質、訓練パイプライン、VLMアーキテクチャといった訓練手法のさまざまな要因を検討した。本研究の成果として、メトリック空間における初のインターネット規模の3次元空間推論データセットを構築した。このデータセットを用いてVLMを訓練することで、定性的・定量的両面において空間VQAの能力が顕著に向上した。さらに、本VLMが定量的推定能力を有しているため、チェーン・オブ・シンキング型空間推論やロボティクス分野における新たな下流応用が可能であることを実証した。プロジェクトウェブサイト:https://spatial-vlm.github.io/