17日前

質問ベースのバイアスを超えて:視覚的質問応答におけるマルチモーダルなショートカット学習の評価

Corentin Dancette, Remi Cadene, Damien Teney, Matthieu Cord
質問ベースのバイアスを超えて:視覚的質問応答におけるマルチモーダルなショートカット学習の評価
要約

視覚的質問応答(VQA)におけるショートカット学習の事例をより適切に診断するための評価手法を提案する。ショートカット学習とは、モデルが誤った統計的パターン(スパuriousな正規性)を利用することで正解を導き出すが、実際には望ましい行動を発揮していない状況を指す。このような状況は、モデルを実世界に導入する前に、データセット内に存在する可能性のあるショートカットを特定し、その利用度を評価する必要性を生じさせる。VQA分野の研究コミュニティは、これまで質問に基づくショートカットにのみ注目しており、たとえば「空の色は何ですか」という質問に対して、視覚的証拠をほとんど無視して、質問に依存した訓練時の事前知識に基づき「青」と答えるようなケースを対象としてきた。本研究では、さらに一歩踏み込んで、質問と画像の両方に依存するマルチモーダルなショートカットに着目する。まず、代表的なVQA v2トレーニングデータセットにおいて、単語と視覚的要素の共起など、単純な予測ルールを抽出することで、潜在的なショートカットを同定する。その後、これらのルールが誤った答えを導く画像-質問-回答の三つ組(CounterExamples)を用いた、VQA-CounterExamples(VQA-CE)という新たな評価プロトコルを提案する。本研究では、この新しい評価手法を用いて、既存のVQAアプローチを大規模に分析した。その結果、最新のモデルですら著しく性能を発揮せず、従来のバイアス低減技術がこの文脈ではほとんど効果を示さないことが明らかになった。これらの結果は、過去のVQAにおける質問ベースのバイアスに関する研究が、複雑な問題の一部にしか対応していないことを示唆している。本手法のコードは、https://github.com/cdancette/detect-shortcuts にて公開されている。