2ヶ月前

VQA-E: 視覚的な質問に対する説明、詳細化、および回答の向上

Li, Qing ; Tao, Qingyi ; Joty, Shafiq ; Cai, Jianfei ; Luo, Jiebo
VQA-E: 視覚的な質問に対する説明、詳細化、および回答の向上
要約

視覚的な質問応答(VQA)に関する既存の多くの研究は、予測された答えの精度向上に焦点を当てており、説明については軽視されています。しかし、私たちは答えに対する説明が答え自体と同等か、それ以上の重要性を持つと考えています。なぜなら、説明があることで質問と回答プロセスがより理解しやすく、追跡可能になるからです。この目的のために、私たちは新しいタスクであるVQA-E(Explanation付きVQA)を提案します。このタスクでは、計算モデルが予測された答えとともに説明を生成することが求められます。まず、新しいデータセットを構築し、次にVQA-E問題をマルチタスク学習アーキテクチャで枠組み化しました。私たちのVQA-Eデータセットは、利用可能なキャプションを巧妙に活用することでVQA v2データセットから自動的に導き出されました。ユーザースタディを行い、私たちの手法によって合成された説明の品質を検証しました。定量的な評価により示したように、説明からの追加的な監督は、ただ単に洞察のある文章を生成して答えを正当化するだけでなく、答えの予測性能も向上させることができます。私たちのモデルは、VQA v2データセットにおいて現行の最先端手法よりも明確な優位性を持っています。