2ヶ月前
RUBi: 可視質問応答における単一モーダルバイアスの低減
Remi Cadene; Corentin Dancette; Hedi Ben-younes; Matthieu Cord; Devi Parikh

要約
ビジュアル・クエスチョン・アンサリング(VQA)は、画像に関する質問に答えるタスクです。一部のVQAモデルでは、単一モーダルのバイアスを活用して、画像情報を使わずに正しい答えを提供することがあります。その結果、評価データが訓練セットの分布と異なる場合、性能が大幅に低下します。この重要な問題により、これらのモデルは実世界の設定には適していないのです。私たちはRUBiという新しい学習戦略を提案します。これは任意のVQAモデルにおけるバイアスを減らすためのものです。最もバイアスのかかった例、つまり画像を見ることなく正しく分類できる例の重要性を低減します。これにより、VQAモデルが統計的な規則性に頼るのではなく、2つの入力モーダルを使用するように暗黙的に強制されます。私たちは質問のみを使用するモデルを利用して言語バイアスを捉えます。このモデルは不要な規則性が使用されるタイミングを特定することで機能し、ベースとなるVQAモデルがそれらを学習しないように予測に影響を与えます。これにより損失を動的に調整し、バイアスを補正することができます。私たちの貢献は、VQA-CP v2において現行の最先端結果を超えることで検証されました。このデータセットは特に設計されており、テスト時に訓練中に見られなかった異なる質問バイアスにさらされたときのVQAモデルの堅牢性を評価することを目指しています。私たちのコードは以下から利用可能です:github.com/cdancette/rubi.bootstrap.pytorch