
要約
時系列行動局所(Temporal action localization)は、動画理解への重要な一歩である。現在の多数の行動局所化手法は、行動インスタンスの時間的境界が完全にアノテーションされた、トリムされていない動画(untrimmed videos)に依存している。しかし、動画の行動ラベルおよび時間的境界を両方アノテーションすることは、費用がかかり、時間もかかる。こうした課題に対応するため、本研究では、学習時に動画レベルの行動インスタンスのみを教師信号として用いる弱教師付き時系列行動局所化手法を提案する。本手法では、動画内の各セグメントに対して行動ラベルを生成する分類モジュールと、異なる行動インスタンス間の類似性を学習するディープメトリック学習モジュールを導入している。標準的なバックプロパゲーションアルゴリズムを用いて、バランスの取れた二値交差エントロピー損失とメトリック損失を共同最適化している。広範な実験により、これらのモジュールが時系列局所化において有効であることが示された。本手法は、2つの挑戦的なトリムされていない動画データセット、THUMOS14およびActivityNet1.2において評価された。その結果、THUMOS14においてはIoU閾値0.5におけるmAPで現在の最先端手法を6.5%向上させ、ActivityNet1.2においても競争力ある性能を達成した。