
要約
動画における時系列行動局所化(Temporal Action Localization, TAL)は、行動の時間的スケールに大きなばらつきがあることから、非常に困難なタスクである。特に、データセットにおいて短時間の行動が多数を占める一方で、その性能は最も低くなる傾向がある。本論文では、こうした短時間行動の課題に取り組み、マルチレベルのクロススケール対応手法として「動画自己接続グラフネットワーク(Video Self-Stitching Graph Network, VSGN)」を提案する。VSGNには2つの主要な構成要素がある:動画自己接続(Video Self-Stitching, VSS)とクロススケールグラフピラミッドネットワーク(cross-scale Graph Pyramid Network, xGPN)。VSSでは、動画の短い時間領域に注目し、時間軸方向に拡大することでより大きなスケールの表現を生成する。その後、元のクリップとその拡大版を同一の入力シーケンスに接続することで、異なるスケール間の補完的な特徴を活用する。xGPNは、複数のクロススケールグラフネットワークから構成されるピラミッド構造を用い、各層にスケール間および同一スケール内での特徴を統合するハイブリッドモジュールを組み込むことで、クロススケール間の相関をさらに活用する。本手法VSGNは、特徴表現の強化に加え、短時間行動に対してより多くのポジティブなアンカーと短時間の学習サンプルを生成する。実験結果から、VSGNは短時間行動の局所化性能を顕著に向上させるとともに、THUMOS-14およびActivityNet-v1.3の両データセットで最先端の全体的な性能を達成することが示された。