17日前
ゼロショット視覚質問応答における知識グラフの利用
Zhuo Chen, Jiaoyan Chen, Yuxia Geng, Jeff Z. Pan, Zonggang Yuan, Huajun Chen

要約
視覚的質問応答(VQA)に外部知識を統合することは、現在、極めて重要な実用的ニーズとなっている。既存の手法は、知識の一致・抽出、特徴学習などの異なるコンポーネントを備えたパイプラインアプローチを採用していることが多い。しかし、このようなパイプラインアプローチは、あるコンポーネントの性能が劣る場合、誤差の伝播を引き起こし、全体的な性能が著しく低下するという課題を抱えている。さらに、多数の既存手法は、実世界の応用において訓練時に一度も登場しなかった(すなわち、未観測の)答えが存在するという「回答バイアス」の問題を無視している。こうした課題を克服するため、本稿では、知識グラフとマスクベースの学習機構を活用したゼロショットVQAアルゴリズムを提案し、外部知識をより効果的に統合する方法を示す。また、F-VQAデータセットに対する新たな回答ベースのゼロショットVQA分割を提示する。実験の結果、本手法は未観測の答えを含むゼロショットVQAにおいて最先端の性能を達成する一方で、従来のエンドツーエンドモデルのF-VQAタスクにおける性能も著しく向上させることを示した。