2ヶ月前

複数の特徴量セットを用いた並列注意に基づく監督型ビデオ要約

Junaid Ahmed Ghauri; Sherzod Hakimov; Ralph Ewerth

要約

動画の特定のフレームや（短い）セグメントに重要度スコアを割り当てる作業は、要約化において極めて重要であるが、同時に困難な課題でもある。従来の研究では、視覚的な特徴量の単一のソースのみを使用していた。本論文では、視覚的内容と動きを予測するために3つの特徴量セットを組み合わせる新しいモデルアーキテクチャを提案する。提案されたアーキテクチャは、動きの特徴量と静止画分類モデルから導き出される（静的な）視覚的内容を表す特徴量を融合する前に、注意メカニズムを利用している。SumMeおよびTVSumという2つの著名なデータセットに対して包括的な実験評価が報告されている。この文脈で、我々は従来の研究がこれらのベンチマークデータセットを使用した方法論上の問題点を指摘し、将来の研究で使用できる適切なデータ分割を持つ公平な評価スキームを提示する。静的および動きの特徴量を並列注意メカニズムとともに使用することで、SumMeにおける最先端の結果を改善し、他のデータセットでは最先端と同等の結果を得ている。注：「parallel attention mechanism」は「並列注意メカニズム」と訳しました。「state-of-the-art」は「最先端」と訳しています。