6ヶ月前

概要

弱教師付き時系列行動局所化（weakly-supervised temporal action localization）とは、動画全体のラベル（video-level action labeling）のみが利用可能な状況下で、行動局所化モデルを学習する問題である。一般的なフレームワークは、分類活性化（classification activation）に大きく依存しており、これはアテンションモデルを用いて行動に関連するフレームを特定し、それらを異なるクラスに分類する手法である。しかしながら、このアプローチは「行動コンテキストの混同問題（action-context confusion issue）」を引き起こす。具体的には、行動クリップ（action clip）の近くにあるコンテキストフレームが、特定のクラスと密接に関連しているため、行動フレームとして誤って認識されてしまう傾向がある。本稿では、この問題を解決するため、フレームアテンションを条件としたクラスに依存しないフレームごとの確率を、条件付き変分自己符号化器（conditional Variational Auto-Encoder, VAE）を用いてモデル化する手法を提案する。我々の観察では、表現空間上において行動領域とコンテキスト領域には顕著な差異が見られる。この事実を踏まえ、各フレームの尤度をアテンションを条件として確率モデル（すなわち条件付きVAE）で学習する。アテンションに対して条件付き確率を最大化することで、行動フレームと非行動フレームが明確に分離される。THUMOS14およびActivityNet1.2における実験結果から、本手法が優れた性能を発揮し、行動コンテキストの混同問題に対して有効であることが示された。コードは現在GitHubにて公開されている。

ソースPDF