Command Palette
Search for a command to run...
大規模・高速・高精度な時空間畳み込みニューラルネットワークを用いたショット境界検出
大規模・高速・高精度な時空間畳み込みニューラルネットワークを用いたショット境界検出
概要
ショット境界検出(SBD)は、動画改ざん検出における重要な前処理ステップである。本研究では、フレームの各セグメントを「シャープな遷移」「グラデーション型の遷移」「遷移なし」のいずれかに分類する。現在のSBD技術は、手作業で設計された特徴量を分析し、検出精度と処理速度の両立を目指しているが、光流(optical flow)の計算負荷が高いため、その実現は困難である。本研究では、時空間畳み込みニューラルネットワーク(spatio-temporal CNN)に基づくSBD手法を提案する。現行のデータセットは、高精度なSBD用CNNを学習させるには十分な規模ではないため、本研究では、シャープ遷移およびグラデーション遷移を含む350万フレーム以上のデータを含む新たなデータセットを構築した。これらの遷移は、画像合成モデルを用いて合成的に生成されたものである。さらに、重要度の高い「ハードネガティブな遷移なし」データとして7万フレームを追加した。本研究では、実データと合成データの両方を用いて、これまでで最も大規模なSBDアルゴリズムの評価を実施し、合計485万フレーム以上を対象とした。最先端技術と比較して、本手法は「ドール・イン」(dissolve)型のグラデーション遷移検出において優れた性能を発揮し、シャープ遷移検出においても競争力のある結果を達成した。特に「ワイプ」(wipe)遷移の検出においては顕著な性能向上を実現した。また、処理速度においても、最先端技術と比較して最大11倍の高速化を達成した。