2ヶ月前
視覚質問応答における多モーダル乗法特徴埋め込みを用いた自由形状領域と検出の共注目
Pan Lu; Hongsheng Li; Wei Zhang; Jianyong Wang; Xiaogang Wang

要約
最近、ビジュアルクエスチョンアswering(VQA)タスクは人工知能の分野でますます注目を集めています。既存のVQA手法は主に視覚的注意機構を採用し、入力された質問と対応する画像領域を関連付けて効果的な回答を行うことを目指しています。このうち、自由形式の領域に基づく注意機構と検出ベースの注意機構が主に研究されており、前者は自由形式の画像領域に注目し、後者は事前に指定された検出ボックスの領域に注目します。私たちは、これらの2つの注意機構が補完的な情報を提供できることから、より効果的にVQA問題を解決するために統合されるべきであると考えています。本論文では、両方の注意機構を統合した新しい深層ニューラルネットワークを提案します。提案したフレームワークは、自由形式の画像領域、検出ボックス、および質問表現からの特徴量をマルチモーダル乗法特徴量埋め込みスキームを通じて効果的に融合し、質問に関連する自由形式の画像領域と検出ボックスに共同して注目することで、より正確な回答を行うことを可能にします。提案手法は公開されている2つのデータセットCOCO-QAとVQAで広範囲に評価され、最先端の手法を上回る性能を示しました。ソースコードはhttps://github.com/lupantech/dual-mfa-vqa で入手可能です。