16日前
CLEVR-X:自然言語による説明を目的とした視覚推論データセット
Leonard Salewski, A. Sophia Koepke, Hendrik P. A. Lensch, Zeynep Akata

要約
視覚的質問応答(Visual Question Answering: VQA)の文脈において、説明を提供することは機械学習における根本的な課題である。VQAにおける自然言語による説明の生成プロセスに関する詳細な知見を得るため、本研究ではCLEVRデータセットに自然言語による説明を追加した大規模なCLEVR-Xデータセットを導入する。CLEVRデータセット内の各画像・質問ペアに対して、CLEVR-Xは元のシーングラフから導出された複数の構造化されたテキスト形式の説明を含んでいる。構成上、CLEVR-Xの説明は正しく、与えられた質問に答えるために必要な推論過程および視覚的情報を正確に記述している。我々は、提案するデータセットに含まれる正解説明が実際に完全かつ関連性を持つことを確認するため、ユーザー研究を実施した。さらに、CLEVR-Xデータセット上で2つの最先端フレームワークを用いて、VQA文脈における自然言語説明生成のベースライン結果を提示する。また、異なる質問種別および回答種別における説明生成品質について詳細な分析を行った。さらに、自然言語生成(NLG)評価指標の収束性に与える影響を、正解説明の数を変化させた場合に検討した。CLEVR-Xデータセットは、\url{https://explainableml.github.io/CLEVR-X/}にて公開されている。