Détection d'anomalies dans une séquence vidéo avec correspondance d'apparence-mouvement

La détection d'anomalies dans les vidéos de surveillance est actuellement un défi en raison de la diversité des événements possibles. Nous proposons un réseau neuronal convolutif profond (CNN) qui aborde ce problème en apprenant une correspondance entre les apparences courantes des objets (par exemple, piéton, arrière-plan, arbre, etc.) et leurs mouvements associés. Notre modèle est conçu comme une combinaison d'un réseau de reconstruction et d'un modèle de traduction d'images partageant le même encodeur. Le sous-réseau de reconstruction identifie les structures les plus significatives qui apparaissent dans les images des vidéos, tandis que l'autre sous-réseau tente d'associer des modèles de mouvement à ces structures. L'étape d'entraînement est réalisée uniquement avec des vidéos d'événements normaux, et le modèle est ensuite capable d'estimer des scores au niveau des images pour une entrée inconnue. Les expériences menées sur six jeux de données de référence montrent que la performance de notre approche proposée est compétitive par rapport aux méthodes de pointe.