2ヶ月前

IconQA: 抽象図形理解と視覚言語推論の新しいベンチマーク

Pan Lu; Liang Qiu; Jiaqi Chen; Tony Xia; Yizhou Zhao; Wei Zhang; Zhou Yu; Xiaodan Liang; Song-Chun Zhu
IconQA: 抽象図形理解と視覚言語推論の新しいベンチマーク
要約

現在の視覚質問応答(VQA)タスクは、主に自然画像に対する人間が注釈した質問への回答を考慮しています。しかし、自然画像以外にも、意味的な豊かさを持つ抽象図形はまだ視覚理解や推論に関する研究で十分に検討されていません。本研究では、アイコン画像の文脈で質問に答えることを目指す新たな課題であるアイコン質問応答(IconQA)を導入します。私たちは107,439の質問と3つのサブタスク(複数画像選択、複数テキスト選択、空欄補充)から構成される大規模なデータセットIconQAを公開します。このIconQAデータセットは、抽象図形の理解と包括的な認知推論の重要性を強調する実世界の図形言語問題から着想を得ています。したがって、IconQAには物体認識やテキスト理解などの知覚技能だけでなく、幾何学的推論、常識的推論、算術的推論など多様な認知推論技能も必要となります。アイコン画像の意味表現を学習する可能性のあるIconQAモデルを支援するために、さらに377クラスに属する645,687個の彩色アイコンを含むアイコンデータセットIcon645も公開します。私たちは広範なユーザースタディと盲検実験を行い、先進的なVQA手法の幅広い範囲を再現してIconQAタスクのベンチマークを作成しました。また、アイコンデータセットで事前学習された入力図形埋め込みを使用するピラミッドクロスモーダルトランスフォーマーを適用した強力なIconQAベースラインモデルPatch-TRMを開発しました。IconQAおよびIcon645はhttps://iconqa.github.ioで利用可能です。