1ヶ月前

VLMが視覚空間的知能からどれほど離れているのか？ベンチマーク駆動型の視点から

Songsong Yu Yuxin Chen Hao Ju Lianjie Jia Fuxi Zhang Shaofei Huang Yuhan Wu Rundi Cui Binghao Ran Zaibin Zhang

要約

視覚空間的推論（Visual Spatial Reasoning, VSR）は、人間の認知能力の根幹を成すものであり、 embodied 智能および自律システムの発展において不可欠な要件である。近年の視覚言語モデル（Vision-Language Models, VLMs）の進展にもかかわらず、三次元空間の表現と推論の複雑性のため、人間レベルのVSRを達成することは依然として極めて困難である。本論文では、VLMにおけるVSRについて体系的な検討を実施し、入力モダリティ、モデルアーキテクチャ、学習戦略、推論メカニズムの各側面における既存手法のレビューを網羅する。さらに、空間的知能を「基本的認知」「空間的理解」「空間計画」の3段階の能力レベルに分類し、23のタスク設定にわたり約20のオープンソースデータセットを含む空間的知能ベンチマーク「SIBench」を構築した。最先端のVLMを用いた実験の結果、認知と推論の間に顕著なギャップが確認された。すなわち、モデルは基本的な認知タスクにおいては一定の性能を発揮するものの、理解および計画タスクにおいては一貫して低成績を示し、特に数値推定、多視点推論、時系列的ダイナミクス、空間的想像力に関するタスクで顕著な課題が明らかになった。これらの結果は、空間的知能の実現に向けた依然として大きな課題が存在することを示唆するとともに、今後の研究を推進するための体系的なロードマップと包括的なベンチマークを提供するものである。本研究に関連するリソースは、以下のURLから公開されている：https://sibench.github.io/Awesome-Visual-Spatial-Reasoning/

AI で AI を構築

アイデアからローンチまで — 無料の AI 共同コーディング、すぐに使える環境、最適価格の GPU で AI 開発を加速。

AI 共同コーディング

すぐに使える GPU

最適価格

今すぐ始める

Hyper Newsletters

最新情報を購読する

北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします

メール配信サービスは MailChimp によって提供されています

Command Palette

VLMが視覚空間的知能からどれほど離れているのか？ ベンチマーク駆動型の視点から

Songsong Yu Yuxin Chen Hao Ju Lianjie Jia Fuxi Zhang Shaofei Huang Yuhan Wu Rundi Cui Binghao Ran Zaibin Zhang8 more

要約

AI で AI を構築

Hyper Newsletters

VLMが視覚空間的知能からどれほど離れているのか？ベンチマーク駆動型の視点から

Songsong Yu Yuxin Chen Hao Ju Lianjie Jia Fuxi Zhang Shaofei Huang Yuhan Wu Rundi Cui Binghao Ran Zaibin Zhang