Command Palette
Search for a command to run...

要約
視覚空間的推論(Visual Spatial Reasoning, VSR)は、人間の認知能力の根幹を成すものであり、 embodied 智能および自律システムの発展において不可欠な要件である。近年の視覚言語モデル(Vision-Language Models, VLMs)の進展にもかかわらず、三次元空間の表現と推論の複雑性のため、人間レベルのVSRを達成することは依然として極めて困難である。本論文では、VLMにおけるVSRについて体系的な検討を実施し、入力モダリティ、モデルアーキテクチャ、学習戦略、推論メカニズムの各側面における既存手法のレビューを網羅する。さらに、空間的知能を「基本的認知」「空間的理解」「空間計画」の3段階の能力レベルに分類し、23のタスク設定にわたり約20のオープンソースデータセットを含む空間的知能ベンチマーク「SIBench」を構築した。最先端のVLMを用いた実験の結果、認知と推論の間に顕著なギャップが確認された。すなわち、モデルは基本的な認知タスクにおいては一定の性能を発揮するものの、理解および計画タスクにおいては一貫して低成績を示し、特に数値推定、多視点推論、時系列的ダイナミクス、空間的想像力に関するタスクで顕著な課題が明らかになった。これらの結果は、空間的知能の実現に向けた依然として大きな課題が存在することを示唆するとともに、今後の研究を推進するための体系的なロードマップと包括的なベンチマークを提供するものである。本研究に関連するリソースは、以下のURLから公開されている:https://sibench.github.io/Awesome-Visual-Spatial-Reasoning/