2ヶ月前

問う、注目し、答える:視覚的質問応答における質問誘導型空間注意の探求

Huijuan Xu; Kate Saenko
問う、注目し、答える:視覚的質問応答における質問誘導型空間注意の探求
要約

我々はビジュアル・クエスチョン・アンサリング(VQA)の問題に取り組んでいます。この問題では、与えられた写真に関する質問に答えるために画像と言語の理解を統合する必要があります。最近のアプローチでは、畳み込み-再帰型ネットワークに基づく深層画像キャプショニング手法が適用されていますが、空間推論をモデル化できていないという課題があります。これを解決するために、我々はSpatial Memory Network(空間記憶ネットワーク)と呼ぶモデルを提案し、VQAタスクに適用します。メモリネットワークは、メモリに保存された情報の特定部分を選択する明示的な注意機構を持つ再帰型ニューラルネットワークです。我々のSpatial Memory Networkは、画像の異なる空間領域からのニューロン活性化をメモリに保存し、質問を利用して関連領域を選択して回答を計算します。この過程がネットワークにおける単一の「ホップ」を構成します。さらに、言葉と画像パッチを最初のホップで対応させる新しい空間注意アーキテクチャを提案し、2つ目の注意ホップを追加することで全体的な質問に基づいて視覚的証拠を選択し、結果が向上することを確認しました。ネットワークによって学習された推論プロセスをよりよく理解するために、特に空間推論が必要な合成質問を作成し、注意重みを可視化しました。我々のモデルは既存の2つのビジュアル・クエスチョン・アンサリングデータセットであるDAQUAR [1] およびVQA [2] 上で評価され、画像と質問特徴量を連結して回答を予測する強力な深層基準モデル(iBOWIMG)[3] と比較して改善された結果を得ました。

問う、注目し、答える:視覚的質問応答における質問誘導型空間注意の探求 | 最新論文 | HyperAI超神経