7ヶ月前

概要

本論文では、活動ビデオから潜在的なスーパーイベントを学習する概念を紹介し、それが連続ビデオにおける活動検出にどのように貢献するかを説明します。スーパーイベントとは、特定の時間的構造を持つ複数のイベントが一緒に発生する集合体であり、サブイベントの対極的概念です。現実世界のビデオは複数の活動を含んでおり、ほとんどがセグメント化されていません（例：監視ビデオ）。潜在的なスーパーイベントを学習することで、モデルはビデオ内のイベントが時間的にどのように関連しているかを捉えることができます。私たちは時間構造フィルターを設計しました。これにより、モデルはビデオの特定の部分区間に焦点を当てることが可能になります。これらのフィルターとソフトアテンションメカニズムを組み合わせて、潜在的なスーパーアイベントの表現を学習します。スーパーアイベントの表現は、フレームごとのCNNやセグメントごとのCNNと組み合わせることで、フレームレベルでの注釈を提供します。私たちの手法は完全に微分可能に設計されており、潜在的なスーパーアイベント表現とそれを使用する活動検出器の両方についてエンドツーエンドで学習することが可能です。複数の公開ビデオデータセットを使用した実験結果から、提案された潜在的なスーパーアイベント学習の概念が活動検出に大きく貢献し、最先端技術を超えることが確認されました。

ソースPDF