2ヶ月前

異種メモリ強化マルチモーダル注意モデルを用いたビデオ質問応答

Chenyou Fan; Xiaofan Zhang; Shu Zhang; Wensheng Wang; Chi Zhang; Heng Huang
異種メモリ強化マルチモーダル注意モデルを用いたビデオ質問応答
要約

本論文では、3つの主要な構成要素を持つ新しいエンドツーエンド学習可能なビデオ質問応答(VideoQA)フレームワークを提案します。1) 外観と動作特徴から効果的に全体的なコンテキスト情報を学習できる新しい異種メモリ;2) 質問の複雑な意味を理解し、照会された主題を強調する再設計された質問メモリ;3) 関連する視覚的および文章的なヒントに自己更新型アテンションで注目しながら多段階推論を行う新しいマルチモーダル融合層です。提案するVideoQAモデルは、まず現在の入力とメモリ内容との相互作用により、全体的なコンテキストに配慮した視覚的および文章的特徴をそれぞれ生成します。その後、マルチモーダルの視覚的および文章的表现の注意に基づく融合を行い、正しい回答を推論します。推論の複数サイクルが行われることで、マルチモーダルデータの注意重みが反復的に改良され、QAペアの最終表現が向上します。実験結果は、当該手法が4つのVideoQAベンチマークデータセットにおいて最先端の性能を達成していることを示しています。

異種メモリ強化マルチモーダル注意モデルを用いたビデオ質問応答 | 最新論文 | HyperAI超神経