11日前
ポイントレベル時系列行動局所化:完全教師ありプロポーザルと弱教師あり損失の橋渡し
Chen Ju, Peisen Zhao, Ya Zhang, Yanfeng Wang, Qi Tian

要約
ポイントレベルの時系列行動定位(Point-Level Temporal Action Localization, PTAL)は、各行動インスタンスに対して一つのタイムスタンプのみをアノテーションとして与えることにより、トリムされていない動画内の行動を定位することを目的としている。従来の手法は、疎な単一フレームラベルから学習するため、フレームレベルの予測枠組みを採用している。しかしながら、このような枠組みは必然的に大きな解空間に直面する。本研究では、ポイントレベルのアノテーションに対して、解空間をより制約的かつ隣接フレーム間の予測の一貫性を保つ利点を持つ、プロポーザルベースの予測枠組みの可能性を模索する。まず、ポイントレベルのアノテーションをキーポイントの監視信号として用いてキーポイント検出器を学習する。次に、位置予測段階において、訓練誤差の逆伝播を可能にするシンプルかつ効果的なマッパーモジュールを導入し、完全監視フレームワークと弱監視間を橋渡しする。知られている限り、本研究はポイントレベル設定において完全監視枠組みを活用した初の試みである。THUMOS14、BEOID、GTEAにおける実験により、提案手法の有効性が定量的・定性的に検証され、最先端手法を上回ることを示した。