2ヶ月前

双線形グラフネットワークを用いた視覚的質問応答

Dalu Guo; Chang Xu; Dacheng Tao
双線形グラフネットワークを用いた視覚的質問応答
要約

本論文は、視覚的な質問応答タスクにおける双線形注意ネットワークをグラフの観点から再検討する。従来の双線形注意ネットワークは、質問中の単語と画像中の物体の共通表現を抽出するために双線形注意マップを構築するが、複雑な推論に必要な単語間の関係性を十分に探索できていない。これに対して、我々は双線形グラフネットワークを開発し、単語と物体の共通埋め込みの文脈をモデル化する。具体的には、画像グラフと質問グラフの2種類のグラフについて調査を行った。画像グラフは、検出された物体の特徴量を関連するクエリ単語に転送し、出力ノードが意味的および事実的な情報を両方持つようにする。一方、質問グラフは、画像グラフからのこれらの出力ノード間で情報を交換し、物体間の暗黙的だが重要な関係性を強化する。これら2つのグラフは互いに協調して動作し、その結果、我々のモデルは物体間の関係性と依存関係をモデル化できることになり、多段階推論が実現可能となる。VQA v2.0バリデーションデータセットでの実験結果は、我々的方法が複雑な質問に対処できる能力を示している。テスト-stdセットでは、最良の単一モデルが最先端性能を達成し、全体的な精度が72.41%に向上した。注:「test-std」などの専門用語や固有名詞についてはそのまま表記しています。「多段階推論」(multi-step reasoning)や「共通埋め込み」(joint embeddings)なども一般的な日本語訳を使用しています。

双線形グラフネットワークを用いた視覚的質問応答 | 最新論文 | HyperAI超神経