2ヶ月前

ACSNet: アクション-コンテキスト分離ネットワークを用いた弱教師付き時系列アクション局所化

Ziyi Liu; Le Wang; Qilin Zhang; Wei Tang; Junsong Yuan; Nanning Zheng; Gang Hua
ACSNet: アクション-コンテキスト分離ネットワークを用いた弱教師付き時系列アクション局所化
要約

弱教師監督時刻行動定位(Weakly-supervised Temporal Action Localization: WS-TAL)の目的は、ビデオレベルの教師データのみを使用して、トリミングされていないビデオ内のすべての行動インスタンスを定位することである。訓練中にフレームレベルのアノテーションが不足しているため、現在のWS-TAL手法は、ビデオレベルの分類タスクに貢献する前景スニペットやフレームを定位するために注意メカニズムに依存している。この戦略は、定位結果においてコンテキストと実際の行動を混同することがしばしばある。正確なWS-TALのために行動とコンテキストを分離することは核心的な問題であるが、非常に難しく、文献ではほとんど無視されてきた。本論文では、コンテキストを明示的に考慮に入れて正確な行動定位を行うAction-Context Separation Network (ACSNet) を提案する。このネットワークは2つのブランチ(すなわち、Foreground-Background ブランチと Action-Context ブランチ)から構成されている。Foreground-Background ブランチはまず全体のビデオ内で前景と背景を区別し、Action-Context ブランチはさらに前景を行動とコンテキストに分離する。私たちはビデオスニペットを2つの潜在成分(すなわち、正成分と負成分)に関連付け、これらの異なる組み合わせにより前景、行動およびコンテキストを効果的に特徴づけることができる。さらに、補助的なコンテキストカテゴリを持つ拡張ラベルを導入し、これにより行動-コンテキスト分離の学習が容易になるようにした。THUMOS14 および ActivityNet v1.2/v1.3 データセットでの実験結果は、ACSNet が既存の最先端 WS-TAL 手法よりも大幅に優れていることを示している。

ACSNet: アクション-コンテキスト分離ネットワークを用いた弱教師付き時系列アクション局所化 | 最新論文 | HyperAI超神経