Command Palette
Search for a command to run...
VQA-E:視覚的質問に対する回答の説明、拡張および強化
VQA-E:視覚的質問に対する回答の説明、拡張および強化
Li Qing Tao Qingyi Joty Shafiq Cai Jianfei Luo Jiebo
概要
視覚的質問応答(VQA)に関する既存の多くの研究は、予測された回答の正確性を向上させることに注力しているが、その説明については無視しがちである。本研究では、回答そのものと同様、あるいはそれ以上に重要なのが回答の説明であると主張する。なぜなら、説明により質問と応答のプロセスがより理解しやすく、追跡可能になるからである。この目的のため、予測された回答とともに説明を生成することを要求する新しいタスク「VQA-E(説明付きVQA)」を提案する。まず、新たなデータセットを構築し、その後、マルチタスク学習アーキテクチャを用いてVQA-E問題を定式化する。本研究で構築したVQA-Eデータセットは、VQA v2データセットから、利用可能なキャプションを知的に活用することで自動的に生成されたものである。また、我々の手法によって合成された説明の質を検証するため、ユーザー調査を実施した。定量的な評価により、説明からの追加的な教師信号が、回答を正当化する洞察をもたらすテキスト文を生成するだけでなく、回答予測の性能向上にも寄与することを示した。提案モデルは、VQA v2データセットにおいて、既存の最先端手法を明確な差で上回っている。