Command Palette
Search for a command to run...
OmniSpatial:視覚言語モデルにおける包括的な空間推論ベンチマークへ向けて
OmniSpatial:視覚言語モデルにおける包括的な空間推論ベンチマークへ向けて
Mengdi Jia Zekun Qi Shaochen Zhang Wenyao Zhang Xinqiang Yu et al
概要
空間的推論は認知心理学における重要な側面であり、現在の視覚言語モデル(VLM)にとって依然として主要な課題である。これまでの多くの研究では、左右の区別、近接・遠隔の識別、物体の数え上げといった基本的な空間関係の理解を評価または向上させることが目指されてきたが、これらのタスクは空間的推論の最も基礎的なレベルに過ぎない。本研究では、認知心理学に基づき、包括的かつ挑戦的な空間的推論のベンチマーク「OmniSpatial」を提案する。OmniSpatialは、動的推論、複雑な空間論理、空間的相互作用、視点の把握の4つの主要なカテゴリに加え、50の細分化されたサブカテゴリをカバーしている。インターネットからのデータ収集と丁寧な手動アノテーションを経て、1,500組以上の質問-回答ペアを構築した。広範な実験の結果、オープンソースおよびクローズドソースの両方のVLM、および既存の推論モデル・空間理解モデルにおいて、包括的な空間的推論能力に顕著な限界が確認された。さらに、失敗事例を分析し、今後の研究における有望な方向性を提案する。