Command Palette
Search for a command to run...
Détection rapide, précise et à grande échelle des limites de plan par réseaux de neurones convolutifs spatio-temporels
Détection rapide, précise et à grande échelle des limites de plan par réseaux de neurones convolutifs spatio-temporels
Résumé
La détection des limites de séquence (SBD, shot boundary detection) constitue une étape préalable essentielle dans le traitement des vidéos. Dans ce contexte, chaque segment de trames est classifié comme présentant une transition brutale, une transition progressive ou aucune transition. Les méthodes actuelles de SBD analysent des caractéristiques conçues manuellement et cherchent à optimiser à la fois la précision de détection et la vitesse de traitement. Toutefois, les calculs intensifs associés au flux optique constituent une contrainte majeure. Afin d’atteindre cet objectif, nous proposons une méthode de SBD basée sur des réseaux de neurones convolutifs spatio-temporels (CNN). Étant donné que les jeux de données existants ne sont pas suffisamment volumineux pour entraîner un CNN de SBD précis, nous introduisons un nouveau jeu de données comprenant plus de 3,5 millions de trames correspondant à des transitions brutales et progressives. Ces transitions sont générées de manière synthétique à l’aide de modèles de composition d’images. Notre jeu de données inclut également 70 000 trames supplémentaires de transitions « non-transition » difficiles (hard-negative), d’importance critique. Nous réalisons la plus grande évaluation à ce jour d’un algorithme de SBD, sur des données réelles et synthétiques, totalisant plus de 4,85 millions de trames. Par rapport aux méthodes de pointe, nous surpassons les performances actuelles pour la détection des transitions progressives par « dissolve », obtenons des résultats compétitifs pour les transitions brutales, et réalisons une amélioration significative pour les transitions par « wipe ». En outre, notre méthode est jusqu’à 11 fois plus rapide que les approches les plus avancées.