2ヶ月前

R-VQA: 視覚関係事実の学習と意味注意を用いた視覚質問応答

Pan Lu; Lei Ji; Wei Zhang; Nan Duan; Ming Zhou; Jianyong Wang
R-VQA: 視覚関係事実の学習と意味注意を用いた視覚質問応答
要約

最近、ビジュアルクエスチョンアswering(VQA)は、視覚とテキストの両方のモダリティを理解する必要があるため、マルチモーダル学習における最も重要なタスクの一つとして注目を集めています。既存の手法は主に、画像と質問の特徴を抽出し、それらの結合特徴埋め込みをマルチモーダル融合や注意機構を通じて学習することに依存しています。最近のいくつかの研究では、外部のVQA非依存モデルを使用して画像内の候補エンティティや属性を検出しており、これらはVQAタスクに対する意味的な知識として補完的に利用されています。しかし、これらの候補エンティティや属性はVQAタスクとは無関係である可能性があり、意味的な容量が限られているという問題があります。より効果的に画像内の意味的知識を利用するため、私たちは新しいフレームワークを提案します。このフレームワークでは、視覚関連事実をVQAのために学習します。具体的には、Visual Genomeデータセットを基にしたSemantic Similarity Module(意味的類似度モジュール)を使用してRelation-VQA(R-VQA)データセットを作成しました。各データは画像、対応する質問、正解の答えおよびサポートとなる視覚関連事実から構成されています。次に、明確に定義された関係検出器を使用して視覚的な質問に関連する関係事実を予測します。さらに、私たちは視覚的注意と意味的注意を順次組み合わせた多段階注意モデルを提案します。このモデルは関連する視覚的情報と意味的情報を抽出するために使用されます。私たちは2つのベンチマークデータセットで包括的な実験を行い、提案モデルが最先端の性能を達成し、視覚関連事実を考えることによる利点が確認されることを示しました。

R-VQA: 視覚関係事実の学習と意味注意を用いた視覚質問応答 | 最新論文 | HyperAI超神経