ACM-Net:弱教師付き時空間行動局所化のための行動コンテキストモデリングネットワーク

弱教師付き時系列行動局所化(Weakly-supervised temporal action localization)は、ビデオ全体のラベル(video-level labels)のみを用いて、行動の時間的境界を特定し、対応する行動カテゴリを同定することを目的としている。従来の手法は、単一のアテンションブランチとクラス活性化シーケンス(class activation sequence)を用いて、前景フレームと背景フレームの分離に主眼を置いていた。しかし、本研究では、前景と背景という明確なフレームに加えて、多くの意味的に曖昧な行動コンテキストフレームが存在すると指摘する。これらのコンテキストフレームは特定の行動カテゴリと意味的に関連しているため、単にすべてを背景クラスに統合することは適切ではない。したがって、単一のクラス活性化シーケンスのみで行動コンテキストフレームを適切に抑制することは困難である。この課題に対処するために、本論文では、各時系列点が行動インスタンス、コンテキスト、または非行動背景である確率を同時に評価できる三本のアテンションブランチを統合した「アクション・コンテキストモデリングネットワーク(ACM-Net)」を提案する。得られた三本のアテンション値に基づき、行動インスタンス、コンテキスト、非行動背景をそれぞれ表現する三本のクラス活性化シーケンスを構築する。ACM-Netの有効性を検証するために、THUMOS-14およびActivityNet-1.3の2つのベンチマークデータセット上で広範な実験を実施した。実験の結果、本手法は現在の最先端手法を上回り、完全教師あり学習手法と同等の性能を達成することを示した。コードは以下のURLから入手可能である:https://github.com/ispc-lab/ACM-Net