2ヶ月前
Sparse Temporal Pooling Network を用いた弱教師ありアクション局所化
Phuc Nguyen; Ting Liu; Gautam Prasad; Bohyung Han

要約
私たちは、畳み込みニューラルネットワークを使用して、トリミングされていない動画における弱教師ありの時系列アクション局所化アルゴリズムを提案します。当該アルゴリズムは、動画レベルのクラスラベルから学習し、時系列の局所化アノテーションを必要とせずに人間の行動の時間間隔を予測します。ネットワークは、注意モジュールを使用して動画内のターゲットアクションに関連するキーセグメントの疎な部分集合を識別し、適応的な時間プーリングを通じてこれらのキーセグメントを融合するように設計されています。損失関数は、動画レベルでのアクション分類誤差を最小化し、セグメント選択の疎性を強制する2つの項で構成されています。推論時には、時間クラス活性化とクラス非依存の注意を使用して時間提案を抽出・評価し、ターゲットアクションに対応する時間間隔を推定します。提案されたアルゴリズムはTHUMOS14データセットにおいて最先端の結果を得ており、ActivityNet1.3においても弱教師ありであるにもかかわらず優れた性能を示しています。