2ヶ月前

TASED-Net: 時間的に集約する空間エンコーダー-デコーダーネットワークによる動画注目度検出

Kyle Min; Jason J. Corso
TASED-Net: 時間的に集約する空間エンコーダー-デコーダーネットワークによる動画注目度検出
要約

TASED-Netは、ビデオの注目度検出に用いられる3次元完全畳み込みネットワークアーキテクチャです。このネットワークは2つの構成要素からなります。まず、エンコーダーネットワークが複数の連続フレームからなる入力クリップから低解像度の空間時間特徴を抽出し、その後、予測ネットワークがエンコードされた特徴を空間的にデコードしながらすべての時間情報を集約します。その結果、複数フレームの入力クリップから単一の予測マップが生成されます。フレームごとの注目度マップは、ビデオに対してスライドウィンドウ方式でTASED-Netを適用することで予測できます。提案手法では、任意のフレームの注目度マップは限られた過去のフレームを考慮することによって予測可能であると仮定しています。広範な実験を通じて得られたビデオ注目度検出の結果は、この仮定を検証し、時間情報集約法を用いた完全畳み込みモデルが効果的であることを示しています。TASED-Netは、ビデオ注目度検出に関する3つの主要な大規模データセット(DHF1K、Hollywood2、UCFSports)において、以前の最先端手法を大幅に上回っています。結果を定性的に分析したところ、当モデルは特に動く注目すべき物体に対する注意能力が高いことが確認されました。

TASED-Net: 時間的に集約する空間エンコーダー-デコーダーネットワークによる動画注目度検出 | 最新論文 | HyperAI超神経