HyperAIHyperAI

Command Palette

Search for a command to run...

生成的アテンションモデリングによる弱教師付きアクション局所化

Baifeng Shi Qi Dai Yadong Mu Jingdong Wang

概要

弱教師付き時系列行動局所化(weakly-supervised temporal action localization)とは、動画全体のラベル(video-level action labeling)のみが利用可能な状況下で、行動局所化モデルを学習する問題である。一般的なフレームワークは、分類活性化(classification activation)に大きく依存しており、これはアテンションモデルを用いて行動に関連するフレームを特定し、それらを異なるクラスに分類する手法である。しかしながら、このアプローチは「行動コンテキストの混同問題(action-context confusion issue)」を引き起こす。具体的には、行動クリップ(action clip)の近くにあるコンテキストフレームが、特定のクラスと密接に関連しているため、行動フレームとして誤って認識されてしまう傾向がある。本稿では、この問題を解決するため、フレームアテンションを条件としたクラスに依存しないフレームごとの確率を、条件付き変分自己符号化器(conditional Variational Auto-Encoder, VAE)を用いてモデル化する手法を提案する。我々の観察では、表現空間上において行動領域とコンテキスト領域には顕著な差異が見られる。この事実を踏まえ、各フレームの尤度をアテンションを条件として確率モデル(すなわち条件付きVAE)で学習する。アテンションに対して条件付き確率を最大化することで、行動フレームと非行動フレームが明確に分離される。THUMOS14およびActivityNet1.2における実験結果から、本手法が優れた性能を発揮し、行動コンテキストの混同問題に対して有効であることが示された。コードは現在GitHubにて公開されている。


AIでAIを構築

アイデアからローンチまで — 無料のAIコーディング支援、すぐに使える環境、最高のGPU価格でAI開発を加速。

AI コーディング補助
すぐに使える GPU
最適な料金体系

HyperAI Newsletters

最新情報を購読する
北京時間 毎週月曜日の午前9時 に、その週の最新情報をメールでお届けします
メール配信サービスは MailChimp によって提供されています
生成的アテンションモデリングによる弱教師付きアクション局所化 | 記事 | HyperAI超神経