12日前

アクションネス誘導型偽陽性抑制を用いた弱教師付き時系列行動局所化

{Zilei Wang, Zhilin Li}
要約

弱教師付き時系列行動局所化(Weakly supervised temporal action localization)は、動画レベルのラベルを用いて、カットされていない動画内における行動の時系列境界を同定し、それに対応する行動カテゴリを割り当てるタスクである。一般的に、「分類による局所化(localization-by-classification)」と呼ばれるパイプラインによって解決される。このアプローチは、動画スニペットを分類することで行動インスタンスを検出するが、動画レベルの分類目的を最適化するため、生成されるアクティベーションシーケンスはクラス関連のシーンに影響を受けやすく、予測結果に多数の誤検出(false positives)が生じる傾向がある。既存の多くの研究では、背景を独立したカテゴリとして扱い、モデルが背景スニペットを識別する能力を学習させようとするが、弱教師付き条件下では背景情報が曖昧で不確実であるため、このアプローチは極めて困難である。誤検出の影響を軽減するために、本研究では新たな「行動性(actionness)を用いた誤検出抑制フレームワーク(actionness-guided false positive suppression framework)」を提案する。本手法は背景カテゴリを導入せずに、誤検出の背景を抑制することを目的とする。まず、動画ラベルを無視することでクラス依存のシーン情報の干渉を最小化できる「自己学習型行動性ブランチ(self-training actionness branch)」を提案し、クラスに依存しない行動性を学習する。次に、誤検出スニペットを抽出し、それらを抑制する「誤検出抑制モジュール(false positive suppression module)」を設計する。さらに、注意機構とクラスに依存しない行動性を活用して、前景を強化する「前景強化モジュール(foreground enhancement module)」を導入する。本手法はTHUMOS14、ActivityNet1.2、ActivityNet1.3の3つのベンチマークで広範な実験を実施し、誤検出の抑制効果が明確に示された。また、最先端の性能を達成した。コードは以下のリンクから入手可能:https://github.com/lizhilin-ustc/AFPS。