
要約
ビデオサマリゼーションは、ビデオの本質的な内容と重要な瞬間を捉えながら、全体の長さを短縮することを目指しています。いくつかの手法では、長期依存関係を処理するために注意メカニズムが用いられていますが、しばしばフレームに内在する視覚的重要性を捉えることができません。この制約に対処するため、私たちは単一のビデオから各フレームの特徴を重ねて画像のようなフレーム表現を作成し、2D CNNをこれらのフレーム特徴に適用するCNNベースの空間時間的注意(CSTA)手法を提案します。私たちの方法論は、CNNが画像内の絶対位置を学習する能力を利用して、フレーム間およびフレーム内の関係性を理解し、ビデオにおける重要な属性を見つけることに依存しています。以前の研究では空間的重要性に焦点を当てるために追加モジュールを設計することで効率性が損なわれていましたが、CSTAはスライディングウィンドウとしてCNNを使用することで最小限の計算負荷で済みます。SumMeおよびTVSumという2つのベンチマークデータセットでの広範な実験により、提案手法が従来の手法よりも少ないMACsで最先端の性能を達成することが示されています。コードはhttps://github.com/thswodnjs3/CSTA で利用可能です。