12日前
コントラストに基づく評価ネットワークを用いた弱教師付き時系列行動局所化
{ Gang Hua, Nanning Zheng, Zhenxing Niu, Zhanning Gao, Qilin Zhang, Le Wang, Ziyi Liu}

要約
弱教師付き時系列行動局所化(Weakly-supervised Temporal Action Localization: WS-TAL)は、学習時にビデオレベルの行動カテゴリラベルしか利用できないという条件のもとで、有望ではあるが困難なタスクである。学習データにおいて時系列的な行動境界のラベルを必要としないため、自動的に抽出されたビデオタグをビデオレベルのラベルとして活用することが可能である。しかし、このような粗いビデオレベルの教師信号は、複数の行動インスタンスを含む非トリム(untrimmed)ビデオでは特に混乱を引き起こすことが避けられない。この課題に対処するため、我々は新たな行動候補評価器を備えた、コントラストに基づく局所化評価ネットワーク(Contrast-based Localization EvaluAtioN Network: CleanNet)を提案する。この新しい行動候補評価器は、スニペットレベルの行動分類予測における時間的コントラストを活用することで、擬似教師信号を提供する。本質的に、新たな行動候補評価器は、高評価スコアの行動候補が真の行動インスタンスと一致する可能性を高めるための追加的な時間的コントラスト制約を課す。さらに、新しい行動局所化モジュールはCleanNetの不可欠な構成要素として、エンド・トゥ・エンドでの学習を可能にしている。これは、多くの既存のWS-TAL手法が行動局所化を単なる後処理ステップとして扱っているのとは対照的である。THUMOS14およびActivityNetデータセットにおける実験により、CleanNetが既存の最先端WS-TALアルゴリズムに対して優れた有効性を示していることが確認された。