2ヶ月前

多段CNNを用いた未編集動画における時間的アクション局所化

Zheng Shou; Dongang Wang; Shih-Fu Chang
多段CNNを用いた未編集動画における時間的アクション局所化
要約

私たちは、トリミングされていない長尺ビデオにおける時系列アクションの位置特定に取り組んでいます。これは重要な課題であり、実際のアプリケーションで使用されるビデオは通常、制約がなく、複数のアクションインスタンスと背景シーンや他の活動を含むビデオコンテンツが混在しているからです。この困難な問題に対処するために、3つのセグメントベースの3D ConvNets(深層ネットワーク)を用いて時系列アクション位置特定の効果性を活用します:(1) プロポーザルネットワークは、アクションが含まれている可能性のある候補セグメントを長尺ビデオから識別します;(2) クラス分類ネットワークは、一対多のアクション分類モデルを学習し、位置特定ネットワークの初期化に役立ちます;(3) 位置特定ネットワークは、学習したクラス分類ネットワーク上で微調整を行い、各アクションインスタンスの位置を特定します。私たちは、位置特定ネットワークのために新しい損失関数を提案しており、これにより時間的な重複を明示的に考慮し、高い時間的位置特定精度を達成しています。予測時にはプロポーザルネットワークと位置特定ネットワークのみを使用します。2つの大規模ベンチマークにおいて、私たちの手法は他の最先端システムと比較して著しく優れた性能を達成しています:評価時の重複閾値が0.5に設定された場合、MEXaction2ではmAP(平均精度)が1.7%から7.4%へと向上し、THUMOS 2014では15.0%から19.0%へと向上しました。

多段CNNを用いた未編集動画における時間的アクション局所化 | 最新論文 | HyperAI超神経