5日前

COREVQA：クラウド観察と推論包含を備えた視覚質問応答ベンチマーク

Ishant Chintapatla, Kazuma Choji, Naaisha Agarwal, Andrew Lin, Hannah You, Charles Duong, et al

要約

近年、視覚言語モデル（VLMs）の評価を目的として、視覚的質問応答（VQA）ペアを用いた多数のベンチマークおよびデータセットが開発され、モデルの精度は顕著な向上を遂げている。しかし、これらのベンチマークは、画像に基づいて仮説を受容または否定するといった、視覚的含意（visual entailment）を正確に遂行する能力をほとんど検証していない。この課題に対応するため、我々は「COREVQA（Crowd Observations and Reasoning Entailment）」を提案する。COREVQAは、CrowdHumanデータセットから抽出した画像を用いて、合成的に生成された真・偽の文のペア（5,608件）から構成されるベンチマークであり、混雑した画像における視覚的含意推論を促すことを目的としている。実験結果から、最も高性能なVLMですら正解率が80％を下回り、他のモデルではさらに著しく低い性能（39.98％～69.95％）が示された。この顕著な性能差は、VLMが混雑したシーンにおける特定の種類の画像－質問ペアに対して推論を行う能力に根本的な限界を有していることを示している。