2ヶ月前
深層構造モデルを用いた高速ビデオショット遷移局所化
Tang, Shitao ; Feng, Litong ; Kuang, Zhangkui ; Chen, Yimin ; Zhang, Wei

要約
ビデオショット遷移の検出は、ビデオ分析における重要な前処理ステップです。従来の研究では、フレーム間の急激なコンテンツ変化を類似度測定と多尺度操作を通じて検出することに焦点が当てられてきました。これらの手法は、さまざまな長さの遷移に対応するために広く利用されています。しかし、隣接するフレーム間で高い視覚的類似性があるため、徐々に進行する遷移の位置特定はまだ十分に研究されていません。カットショット遷移は急激な意味論的な中断を示す一方で、徐々に進行するショット遷移は意味論的な中断だけでなく、ビデオ効果によって引き起こされる低レベルの空間時間パターン(例えばクロスフェード)も含んでいます。この問題を解決するために、我々はこれら2つのショット遷移をそれぞれ対象としたモデルを使用して検出できる構造化ネットワークを提案します。また、速度性能のトレードオフを考慮し、スマートなフレームワークを設計しました。TITAN GPU 1台を使用することで、提案手法は30倍リアルタイムの速度を達成できます。公開データベース TRECVID07 および RAI 上での実験結果から、我々の方法が最先端の手法よりも優れていることが示されました。高性能なショット遷移検出器を開発するために、新たにデータベース ClipShots を提供します。このデータベースには4039本のオンラインビデオから128636件のカット遷移と38120件の徐々に進行する遷移が含まれています。ClipShots では意図的に短いビデオを集めており、手ブレや大きな物体運動、遮蔽などにより引き起こされるより難しいケースに対応しています。