11日前
IllusionVQA:視覚言語モデル向けの挑戦的な視覚錯覚データセット
Haz Sameen Shahgir, Khondker Salman Sayeed, Abhik Bhattacharjee, Wasi Uddin Ahmad, Yue Dong, Rifat Shahriyar

要約
視覚言語モデル(VLM)の登場により、研究者たちは自然言語を用いてニューラルネットワークの視覚的理解能力を検証できるようになった。物体分類や検出を越えて、VLMは視覚的理解および常識的推論も可能である。このことから自然と浮かび上がる問いがある:画像自体が本質的に非現実的な状況において、VLMはいかなる反応を示すのか? こうした問いに答えるために、我々は「IllusionVQA」という多様な難解な錯視画像および解釈が困難なシーンから構成されるデータセットを提案する。このデータセットは、二つの異なる複数選択形式のVQAタスク——理解(comprehension)とソフトローカリゼーション(soft localization)——におけるVLMの能力を検証することを目的としている。最も性能の高いVLMであるGPT4Vは、理解タスクにおいて4ショット設定で62.99%の正解率を達成し、ローカリゼーションタスクでは4ショットおよびChain-of-Thought推論を用いた場合に49.7%の正解率を示した。一方、人間による評価では、理解タスクで91.03%、ローカリゼーションタスクで100%の正解率が得られた。本研究では、コンテキスト内学習(ICL)およびChain-of-Thought推論が、Gemini-Proのローカリゼーションタスクにおける性能を著しく低下させることを発見した。さらに、VLMのICL能力における潜在的な課題も明らかになった:正解がfew-shot例としてコンテキストウィンドウ内に存在しても、VLMは錯視現象を正しく位置特定できないことがある。