2ヶ月前

自己批評的論理による堅牢な視覚的な質問応答

Jialin Wu; Raymond J. Mooney
自己批評的論理による堅牢な視覚的な質問応答
要約

視覚的な質問応答(VQA)の深層学習システムは、強い言語的先験知識のため、訓練データにおける表面的な統計的相関を捉えがちであり、質問応答(QA)分布が大幅に異なるテストデータに対して一般化できない傾向があります。この問題に対処するため、我々は自己批判的な訓練目標を導入しました。この目標は、正しい回答の視覚的説明が他の競合する回答候補よりも影響力のある画像領域とよりよく一致することを保証します。影響力のある領域は、人間の視覚的/文章的な説明から決定されるか、または質問と回答における重要な単語から自動的に決定されます。我々のアプローチをVQA-CPデータセットを使用してVQA一般化タスクで評価した結果、文章的説明を使用した場合49.5%、自動的に注釈された領域を使用した場合48.5%という新たな最先端の性能を達成しました。

自己批評的論理による堅牢な視覚的な質問応答 | 最新論文 | HyperAI超神経