Détection d'événements anormaux dans les vidéos à l'aide de Clusters de Normalité Restreints

Nous formulons le problème de détection d'événements anormaux comme une tâche de détection d'outliers et nous proposons un algorithme en deux étapes basé sur le regroupement par k-moyennes et les machines à vecteurs de support mono-classe (SVM) pour éliminer ces outliers. Dans l'étape d'extraction des caractéristiques, nous suggérons d'augmenter les cubes spatio-temporels avec des caractéristiques d'apparence profonde extraites de la dernière couche de convolution d'un réseau neuronal pré-entraîné. Après avoir extrait les caractéristiques de mouvement et d'apparence à partir de la vidéo d'entraînement ne contenant que des événements normaux, nous appliquons le regroupement par k-moyennes pour trouver des clusters représentant différents types de caractéristiques de mouvement et d'apparence normales. Dans la première étape, nous considérons que les clusters ayant moins d'échantillons (par rapport à un seuil donné) contiennent principalement des outliers, et nous éliminons ces clusters complètement. Dans la deuxième étape, nous rétrécissons les frontières des clusters restants en formant un modèle SVM mono-classe sur chaque cluster. Pour détecter les événements anormaux dans la vidéo de test, nous analysons chaque échantillon de test et considérons son score maximal de normalité fourni par les modèles SVM mono-classe entraînés, en se basant sur l'intuition qu'un échantillon de test ne peut appartenir qu'à un seul cluster de normalité. Si l'échantillon de test ne s'adapte pas bien à aucun des clusters rétrécis de normalité, il est alors étiqueté comme anormal. Nous comparons notre méthode à plusieurs méthodes avancées sur trois ensembles de données de référence. Les résultats empiriques indiquent que notre cadre pour la détection d'événements anormaux peut obtenir des résultats supérieurs dans la plupart des cas, tout en traitant la vidéo de test en temps réel à 24 images par seconde sur un seul processeur central (CPU).