16日前
G-TAD:時空間行動検出における部分グラフローカライゼーション
Mengmeng Xu, Chen Zhao, David S. Rojas, Ali Thabet, Bernard Ghanem

要約
時系列行動検出は、動画理解における基本的かつ挑戦的なタスクである。動画の文脈は、行動を効果的に検出する上で重要な手がかりとなるが、現在の研究は主に時系列的文脈に注目している一方で、意味的文脈やその他の重要な文脈特性を軽視している。本研究では、多段階の意味的文脈を動画特徴に適応的に組み込むためのグラフ畳み込みネットワーク(GCN)モデルを提案し、時系列行動検出を部分グラフの局所化問題として定式化する。具体的には、動画スニペットをグラフのノードとして定義し、スニペット間の相関関係をエッジとして扱い、文脈と関連する行動をターゲットとなる部分グラフとして表現する。グラフ畳み込みを基本演算として用い、各ノードの特徴をその文脈からの集約によって学習し、グラフ内のエッジを動的に更新するGCNブロック「GCNeXt」を設計した。また、各部分グラフをユークリッド空間に埋め込むためのSGAlign層も提案し、部分グラフの局所化を実現した。広範な実験により、G-TADが追加の教師信号なしに効果的な動画文脈を発見可能であり、2つの検出ベンチマークにおいて最先端の性能を達成することが示された。ActivityNet-1.3では平均mAP 34.09%、THUMOS14では提案処理手法を組み合わせた場合、[email protected]で51.6%のスコアを達成した。G-TADのコードは、https://github.com/frostinassiky/gtad にて公開されている。