反事実サンプルの合成によるロバストな視覚質問応答

近年、視覚質問応答(Visual Question Answering: VQA)は著しい進展を遂げてきたが、現在のVQAモデルは訓練データセット内の表面的な言語的相関関係に依存しがちであり、質問・回答(QA)の分布が異なるテストデータセットへの一般化能力に欠ける傾向にある。言語バイアスを低減するため、近年のいくつかの研究では、ターゲットVQAモデルの訓練を正則化する目的で、質問のみを入力とする補助モデルを導入し、VQA-CPタスクにおいて優れた性能を達成している。しかし、これらの手法は設計の複雑さのため、理想的なVQAモデルに求められる2つの不可欠な特性——1)視覚的説明可能性(visual-explainable):意思決定時に正しい視覚的領域に依拠すること、2)質問感受性(question-sensitive):質問内の言語的変化に敏感であること——をアンサンブルベースのモデルに組み込むことが困難である。本研究では、モデルに依存しない反事実サンプル生成(Counterfactual Samples Synthesizing: CSS)訓練スキームを提案する。CSSは、画像内の重要なオブジェクトや質問内のキーワードをマスキングし、異なる正解ラベルを割り当てることで多数の反事実訓練サンプルを生成する。この生成サンプル(元のサンプルと補完的な生成サンプル)を用いて訓練することで、VQAモデルはすべての重要なオブジェクトおよび語彙に注目するよう強制され、視覚的説明可能性と質問感受性の両面において顕著な向上が実現される。その結果、モデルの性能もさらに向上する。広範な消去実験によりCSSの有効性が確認された。特に、LMHモデルを基盤とすることで、VQA-CP v2で58.95%という記録的な性能を達成し、前例を上回る6.5%の向上を実現した。