2ヶ月前

モーション-外観共記憶ネットワークを用いたビデオ質問応答

Jiyang Gao; Runzhou Ge; Kan Chen; Ram Nevatia
モーション-外観共記憶ネットワークを用いたビデオ質問応答
要約

ビデオ質問応答(Video Question Answering, VQA)は、ビデオの時間構造を理解する上で重要なタスクです。私たちは、画像質問応答(Image QA)と比較して、ビデオQAには以下の3つの独自の特性があることを観察しました:(1) 量だけでなく種類も豊富な情報を含む長い画像シーケンスを扱います;(2) 動きと外観情報が通常相互に関連しており、互いに有用な注意の手がかりを提供できます;(3) 異なる質問には異なる数のフレームが必要です。これらの観察に基づいて、私たちはビデオQA用の動き-外観共通メモリネットワーク(Motion-Appearance Co-Memory Network)を提案します。私たちのネットワークは動的メモリネットワーク(Dynamic Memory Network, DMN)の概念に基づいて構築され、ビデオQA向けの新しい機構を導入しています。具体的には、以下の3つの特徴があります:(1) 動きと外観から手がかりを得て注意を生成する共通メモリ注意機構;(2) 多段階の文脈事実を生成するための一時的な畳み込み-逆畳み込みネットワーク(Temporal Conv-Deconv Network);(3) 質問ごとに動的に一時表現を作成するための動的事実アンサンブル手法(Dynamic Fact Ensemble Method)。我々はTGIF-QAデータセットで提案手法を評価し、TGIF-QAの4つのすべてのタスクにおいて大幅に最先端技術を超える結果を得ました。

モーション-外観共記憶ネットワークを用いたビデオ質問応答 | 最新論文 | HyperAI超神経