16日前

共通認識の破壊：WHOOPS! 合成的かつ構成的な画像を用いた視覚言語ベンチマーク

Nitzan Bitton-Guetta, Yonatan Bitton, Jack Hessel, Ludwig Schmidt, Yuval Elovici, Gabriel Stanovsky, Roy Schwartz

要約

奇妙で異常、あるいは不気味な画像は、観察者にとって好奇心をかき立てる。それは常識に反するからである。たとえば、2022年のワールドカップ期間中に公開された画像には、有名なサッカー選手であるリオネル・メッシとクリスティアーノ・ロナウドがチェスを指している様子が描かれており、彼らの競争がサッカー場で行われるべきという私たちの期待に遊び心を込めて反するものである。人間はこうした非日常的な画像を容易に認識し、解釈することができるが、AIモデルも同様の能力を持つだろうか？本研究では、視覚的常識（visual commonsense）を評価するための新しいデータセットおよびベンチマーク「WHOOPS!」を紹介する。このデータセットは、Midjourneyなどの公開されている画像生成ツールを用いてデザイナーが意図的に常識を逆転させた画像を集めたものである。本データセットを用いて、画像キャプション生成、クロスモーダルマッチング、視覚的質問応答（VQA）に加え、特に困難な「説明生成タスク」を導入している。このタスクでは、モデルが与えられた画像がなぜ異常であるかを特定し、その理由を説明する必要がある。実験結果から、GPT-3やBLIP2といった最先端モデルであっても、WHOOPS!において人間の性能にはまだ及ばないことが明らかになった。本データセットが、より強固な視覚的常識推論能力を持つAIモデルの開発を促進することを期待している。データ、モデル、コードはプロジェクトウェブサイト（whoops-benchmark.github.io）にて公開されている。