Détection Ridiculement Rapide des Frontières de Plans avec des Réseaux Neuronaux Convolutifs Complets

La détection de limites de plans (SBD) est un élément crucial de nombreuses tâches d'analyse vidéo, telles que la reconnaissance d'actions, l'indexation vidéo, la synthèse et le montage. Les travaux précédents utilisaient généralement une combinaison de caractéristiques de bas niveau comme les histogrammes de couleur, associés à des modèles simples tels que les machines à vecteurs de support (SVM). À la place, nous proposons d'apprendre la détection de plans d'une extrémité à l'autre, du pixel aux limites finales des plans. Pour entraîner un tel modèle, nous nous appuyons sur notre constatation selon laquelle toutes les limites de plans sont générées. Ainsi, nous avons créé un ensemble de données composé d'un million d'images et de transitions automatiquement générées telles que des coupures nettes (cuts), des fondues enchaînées (dissolves) et des fondues au noir (fades). Afin d'analyser efficacement des heures de vidéos, nous proposons un réseau neuronal convolutif (CNN) entièrement convolutif dans le temps, ce qui permet d'utiliser un contexte temporel large sans avoir besoin de traiter répétitivement les images. Avec cette architecture, notre méthode obtient des résultats à l'état de l'art tout en fonctionnant à une vitesse sans précédent, supérieure à 120 fois la vitesse temps réel.