
時系列行動検出(Temporal action detection)は、動画内における行動の開始・終了時刻を正確に特定することを目的としている。現在の境界マッチングに基づく手法は、すべての可能な境界マッチングを列挙し、計算することで候補領域(proposal)を生成している。しかし、こうした手法は境界予測における長距離コンテキストの集約を無視している。また、隣接するマッチング同士が類似した意味を持つため、密に生成されたマッチングの局所的意味コンテキストの集約は、意味の豊かさや識別性の向上に寄与しない。本論文では、境界レベルと候補領域レベルの二つのレベルでコンテキストを集約できるエンド・ツー・エンドの候補生成手法である「Dual Context Aggregation Network(DCAN)」を提案する。これにより、高品質な行動候補を生成し、時系列行動検出の性能を向上させる。具体的には、境界レベルでの滑らかなコンテキスト集約と境界の精確な評価を実現するため、マルチパス時系列コンテキスト集約(Multi-Path Temporal Context Aggregation, MTCA)を設計した。また、マッチング評価の観点から、候補領域レベルでのコンテキスト集約と、粗い段階から細かい段階へとマッチングマップを段階的に精緻化する粗い段階から細かい段階へのマッチング(Coarse-to-fine Matching, CFM)を提案した。本手法はActivityNet v1.3およびTHUMOS-14の両データセット上で広範な実験を実施した結果、ActivityNet v1.3では平均mAP 35.39%、THUMOS-14では[email protected]におけるmAP 54.14%を達成し、DCANが高品質な候補を生成し、最先端の性能を実現できることを示した。コードはhttps://github.com/cg1177/DCANにて公開している。