2ヶ月前

VLG-Net: 動画-言語グラフマッチングネットワークによる動画位置特定

Soldan, Mattia ; Xu, Mengmeng ; Qu, Sisi ; Tegner, Jesper ; Ghanem, Bernard
VLG-Net: 動画-言語グラフマッチングネットワークによる動画位置特定
要約

ビデオ内の言語クエリの位置づけは、言語クエリと意味的に関連する時間間隔(または瞬間)を特定することを目指しています。この困難な課題の解決には、ビデオとクエリの意味的内容を理解し、それらの多様なモーダル相互作用について細かい推論を行うことが必要です。私たちの主なアイデアは、この課題をアルゴリズム的なグラフマッチング問題に再定式化することです。最近のグラフニューラルネットワークの進歩により、ビデオとテキスト情報をモデル化し、それらの意味的な対応関係を表現するためにグラフ畳み込みネットワーク(Graph Convolutional Networks)を活用することを提案します。モーダル間での情報の相互交換を可能にするために、新しいビデオ-言語グラフマッチングネットワーク(Video-Language Graph Matching Network, VLG-Net)を設計して、ビデオとクエリのグラフをマッチングします。主要な構成要素には、ビデオスニペットとクエリトークンそれぞれに対して構築され、モーダル内関係性をモデル化するために使用される表現グラフが含まれます。クロスモーダルコンテキストモデリングとマルチモーダル融合のために、グラフマッチング層が採用されています。最後に、強化されたスニペット特徴量を融合することでマスク付き瞬間注意プーリングを使用して瞬間候補を作成します。私たちは、ActivityNet-Captions, TACoS, および DiDeMo という3つの広く使用されているデータセットで、言語クエリに基づくビデオ内の瞬間の一時的位置づけにおいて最先端の位置づけ手法よりも優れた性能を示しています。