PivoTAL:弱教師付き時系列行動局所化のための事前駆動型監督

弱教師付き時系列行動定位(Weakly-supervised Temporal Action Localization, WTAL)は、動画レベルのラベルのみを用いて、トリムされていない動画内の行動を定位することを目指す。近年の大多数の研究は、分類に基づく定位アプローチに依拠しており、各フレームを分類した後、手動で設計された後処理パイプラインを用いてフレーム単位の行動予測を統合して行動スニペットを生成する。しかし、このアプローチではモデルが行動の境界について明示的な理解を持たず、動画の中でも最も特徴的な部分にのみ注目しがちであり、結果として行動の定位が不完全になりやすいという課題がある。これを解決するために、本研究では「PivoTAL(Prior-driven Supervision for Weakly-supervised Temporal Action Localization)」を提案する。PivoTALは、分類に基づくアプローチではなく、直接行動スニペットの定位を学ぶ「定位に基づく定位(localization-by-localization)」の視点からWTALにアプローチする。そのため、PivoTALは動画に内在する空間時系列的な規則性を活用し、行動固有のシーン事前知識(action-specific scene prior)、行動スニペット生成事前知識(action snippet generation prior)、および学習可能なガウス事前知識(learnable Gaussian prior)を用いて、定位に基づく学習を支援する。実験の結果、THUMOS-14およびActivityNet-v1.3という標準ベンチマークデータセットにおいて、既存のすべての手法を大きく上回る性能を達成し、平均mAPで少なくとも3%の向上を示した。