
要約
視覚質問応答(Visual Question Answering: VQA)における言語バイアスは、重要な課題である。モデルは画像情報ではなく、データセットに内在するバイアスを利用して最終的な判断を行う傾向があり、その結果、分布外データ(out-of-distribution data)において性能が著しく低下し、視覚的説明能力も不十分となる。既存のロバストVQA手法に対する実験的分析に基づき、本研究ではVQAにおける言語バイアスが「分布バイアス」と「ショートカットバイアス」という二つの側面から生じることを指摘する。さらに、複数のバイアスを有するモデルを統合して、バイアスのないベースモデルを学習する新しいデバイアスフレームワーク「グリーディーグレディエントエンサンブル(Greedy Gradient Ensemble: GGE)」を提案する。GGEはグリーディ戦略を用いて、バイアスモデルが優先的にバイアスのあるデータ分布に過剰適合するように誘導することで、ベースモデルがバイアスモデルでは解きにくい例に注目するよう促す。実験の結果、本手法は視覚情報のより効果的な活用を実現し、追加のアノテーションを用いずにVQA-CPデータセットにおいて最先端の性能を達成した。