2ヶ月前

視覚質問応答のための集中動的注意モデル

Ilija Ilievski; Shuicheng Yan; Jiashi Feng
視覚質問応答のための集中動的注意モデル
要約

視覚的な質問応答(VQA)問題は、複数の研究分野からますます注目を集めています。VQA問題を解決するには、提示された画像や動画の視覚的内容を理解するためのコンピュータビジョンの技術と、質問の意味を理解し回答を生成するための自然言語処理の技術が必要です。視覚的内容モデリングに関しては、既存の大半のVQA手法が画像や動画から全体的な特徴を抽出する戦略を採用していますが、これでは複数オブジェクトの空間構成などの細かい情報を取り逃すことが避けられません。自動生成された領域から特徴を抽出する方法(一部の領域ベースの画像認識手法で行われている)も根本的にはこの問題を解決せず、質問とは無関係な特徴が多すぎることがあります。本研究では、提案された質問に更好的に対応した画像内容表現を提供するために、新しい「Focused Dynamic Attention (FDA)」モデルを提案します。FDAは質問内のキーワードに注目し、市販の物体検出器を使用して重要な領域を特定し、LSTMユニットを通じてこれらの領域からの情報を全体的な特徴と融合させます。このような質問主導型表現はその後、質問表現と組み合わせられ、推論ユニットに入力されて回答が生成されます。大規模ベンチマークデータセットであるVQAでの広範な評価により、FDAが確立された基準モデルに対して優れた性能を持つことが明確に示されています。注:「更好的に対応」部分在日语中显得有些口语化,为了保持正式性和准确性,建议修改为「より適切に対応」。修正后的翻译如下:視覚的な質問応答(VQA)問題は、複数の研究分野からますます注目を集めています。VQA問題を解決するには、提示された画像や動画の視覚的内容を理解するためのコンピュータビジョンの技術と、質問の意味を理解し回答を生成するための自然言語処理の技術が必要です。視覚的内容モデリングに関しては、既存の大半のVQA手法が画像や動画から全体的な特徴を抽出する戦略を採用していますが、これでは複数オブジェクトの空間構成などの細かい情報を取り逃すことが避けられません。自動生成された領域から特徴を抽出する方法(一部の領域ベースの画像認識手法で行われている)も根本的にはこの問題を解決せず、質問とは無関係な特徴が多すぎることがあります。本研究では、提案された質問により適切に対応した画像内容表現を提供するために、新しい「Focused Dynamic Attention (FDA)」モデルを提案します。FDAは質問内のキーワードに注目し、市販の物体検出器を使用して重要な領域を特定し、LSTMユニットを通じてこれらの領域からの情報を全体的な特徴と融合させます。このような質問主導型表現はその後、質問表現と組み合わせられ、推論ユニットに入力されて回答が生成されます。大規模ベンチマークデータセットであるVQAでの広範な評価により、FDAが確立された基準モデルに対して優れた性能を持つことが明確に示されています。

視覚質問応答のための集中動的注意モデル | 最新論文 | HyperAI超神経