2ヶ月前

TSP: 時間感応性のあるビデオエンコーダの事前学習による局所化タスクへの適用

Humam Alwassel; Silvio Giancola; Bernard Ghanem
TSP: 時間感応性のあるビデオエンコーダの事前学習による局所化タスクへの適用
要約

未編集のビデオが大きなメモリ占有率を持つため、現在の最先端のビデオローカライゼーション手法は、事前に計算されたビデオクリップ特徴量を基にして動作します。これらの特徴量は、通常、トリミングされたアクション分類タスクのために訓練されたビデオエンコーダから抽出されるため、時間的なローカライゼーションには必ずしも適していない場合があります。本研究では、新しい教師あり事前学習パラダイムを提案します。このパラダイムは、アクティビティの分類だけでなく、背景クリップと全体的なビデオ情報も考慮することで、時間的な感度を向上させます。広範な実験により、私たちの新しい事前学習戦略で訓練された特徴量を使用することで、最近の最先端手法が次の3つのタスクにおいて大幅に性能が向上することが示されました:時間的アクションローカライゼーション(Temporal Action Localization)、アクションプロポーザル生成(Action Proposal Generation)、および密集型ビデオキャプショニング(Dense Video Captioning)。また、私たちの事前学習アプローチが3つのエンコーダアーキテクチャと2つの事前学習データセットに対して有効であることも示しました。私たちは、ビデオ特徴量エンコーディングがローカライゼーションアルゴリズムにとって重要な構成要素であり、時間的に敏感な特徴量を抽出することがより正確なモデルを構築する上で最重要であると考えています。コードと事前学習済みモデルはプロジェクトウェブサイトで公開されています。

TSP: 時間感応性のあるビデオエンコーダの事前学習による局所化タスクへの適用 | 最新論文 | HyperAI超神経