17日前

REVIVE:知識ベース視覚質問応答における領域視覚表現の重要性

Yuanze Lin, Yujia Xie, Dongdong Chen, Yichong Xu, Chenguang Zhu, Lu Yuan
REVIVE:知識ベース視覚質問応答における領域視覚表現の重要性
要約

本稿では、知識ベース型視覚質問応答(Knowledge-based Visual Question Answering: KB-VQA)における視覚表現の再検討を行い、領域情報(regional information)をより効果的に活用することで、性能の顕著な向上が可能であることを示している。従来のVQAにおいて視覚表現は広く研究されているが、両者とも視覚入力を基に質問に答えるという共通の目的を持つにもかかわらず、KB-VQAにおける視覚表現の研究はまだ十分に行われていない。特に、最先端のKB-VQA手法において以下の2点が観察された:1)知識検索のための視覚特徴は、全体画像から抽出されるか、スライディングウィンドウ方式で抽出されるが、物体領域間あるいは領域内の重要な関係性が無視されている;2)最終的な回答モデルにおいても、視覚特徴が十分に活用されておらず、これは一定程度、直感に反する状況である。これらの観察に基づき、本研究では新たなKB-VQA手法「REVIVE」を提案する。REVIVEは、物体領域の明示的な情報を知識検索フェーズだけでなく、回答モデルにおいても活用することを目指している。その主な動機は、物体領域およびそれらの内在的関係がKB-VQAにおいて重要であるという点にある。標準的なOK-VQAデータセット上で広範な実験を実施した結果、新たな最先端性能(正解率58.0%)を達成し、従来の最先端手法を大きく上回る(+3.6%)成果を挙げた。さらに、フレームワーク内の各構成要素において領域情報の必要性を詳細に分析し、その重要性を示した。実装コードは公開されており、https://github.com/yzleroy/REVIVE から入手可能である。