17日前

QLEVR:数量表現言語と基礎視覚推論のための診断データセット

Zechen Li, Anders Søgaard
QLEVR:数量表現言語と基礎視覚推論のための診断データセット
要約

合成データセットは、視覚的質問応答(VQA)データセットの推論能力を検証する手段として成功裏に活用されてきた。たとえば、CLEVR(johnson2017clevr)は、多様な視覚的推論能力を評価するためのデータセットであり、形状、色、サイズに関する比較、数的推論、存在に関する主張などを問う質問が含まれている。本論文では、最小限のバイアスを持つ診断用の視覚的質問応答データセット、QLEVRを提案する。このデータセットは、存在や数的量化にとどまらず、より複雑な量化子およびその組み合わせに焦点を当てており、例えば「画像内に、少なくとも3つの青い球より小さい赤い球が2つ以上存在するか?」といった質問を含む。本研究では、QLEVRデータセットの作成プロセスを詳述し、最先端の視覚的質問応答モデルに対する初期評価を提示する。その結果、QLEVRは現在のモデルにとって極めて困難な課題であることが明らかになった。コードおよびデータセットは、https://github.com/zechenli03/QLEVR で公開されている。