11日前
弱教師付き時系列行動局所化のためのTwo-Stream Consensus Network
Yuanhao Zhai, Le Wang, Wei Tang, Qilin Zhang, Junsong Yuan, Gang Hua

要約
弱教師付き時系列行動局所化(Weakly-supervised Temporal Action Localization: W-TAL)は、フレームレベルのラベルが存在しない状況下で、非トリム動画内のすべての行動インスタンスを分類および局所化することを目的としています。しかしながら、フレームレベルのアノテーションが欠如しているため、W-TAL手法は誤検出の行動候補(false positive action proposals)の識別や、正確な時間的境界を持つ行動候補の生成が困難です。本論文では、これらの課題を同時に解決するため、二本のストリームによるコンセンサスネットワーク(Two-Stream Consensus Network: TSCN)を提案します。提案するTSCNは、反復的精緻化トレーニング手法を特徴としており、フレームレベルの擬似正解(pseudo ground truth)を逐次更新し、モデルの訓練を改善するとともに、誤検出の行動候補を効果的に排除するためのフレームレベルの監視情報を提供します。さらに、予測された注目度(attention)がバイナリ選択のように振る舞うよう促進する新たな注目度正規化損失(attention normalization loss)を導入しました。この損失は、行動インスタンスの時間的境界の精密な局所化を促進します。THUMOS14およびActivityNetデータセットにおける実験結果から、提案手法のTSCNは現在の最先端手法を上回り、一部の最新の完全教師あり手法と同等の性能を達成していることが示されました。