
要約
ショット境界検出(SBD)は、アクション認識、ビデオインデックス作成、要約化、編集などの多くのビデオ解析タスクにおいて重要な要素です。従来の研究では、色ヒストグラムなどの低レベル特徴量を用い、SVMなどの単純なモデルと組み合わせて検出を行うことが一般的でした。本研究では、ピクセルから最終的なショット境界までの一貫した学習方法を提案します。このようなモデルの学習には、すべてのショット境界が生成されるという我々の洞察に基づいています。そのため、カット、ディゾルブ、フェードなどの自動生成された遷移を含む100万フレームのデータセットを作成しました。さらに、数時間に及ぶビデオを効率的に解析するために、時間軸方向に完全に畳み込み処理を行う畳み込みニューラルネットワーク(CNN)を提案します。このアーキテクチャにより、当手法は最先端の結果を得つつ、実時間の120倍以上の速度で動作します。