Command Palette
Search for a command to run...
視覚空間的推論
視覚空間的推論
Fangyu Liu Guy Emerson Nigel Collier
概要
空間的関係性は人間の認知において基本的な要素である。しかし、自然言語では多様な方法で表現され、これまでの研究では、現在の視覚言語モデル(VLM)が関係性情報を十分に捉えることが難しいことが示唆されている。本論文では、英語で66種類の空間的関係性(例:under、in front of、facingなど)を含む、1万件を超える自然なテキスト・画像ペアを備えたデータセット「Visual Spatial Reasoning(VSR)」を提示する。一見単純なアノテーション形式を採用しているが、我々はこのデータセットが、参照枠の変化といった挑戦的な言語現象を含んでいることを示す。人間とモデルのパフォーマンスの間に顕著なギャップがあることを実証した。人間の上限性能は95%を上回るが、最先端モデルの性能は約70%にとどまる。さらに、VLMの各関係性に対する性能は、訓練データの数とほとんど相関がなく、特に物体の方向性に関わる関係性を認識する能力が一般的に欠けていることを観察した。