Représentation Éparse Auto-Éduquée pour la Détection d'Anomalies dans les Vidéos

La détection d’anomalies dans les vidéos (VAD) vise à localiser des actions ou activités inattendues au sein d'une séquence vidéo. Les techniques actuelles dominantes en VAD reposent soit sur une formulation à un seul type (one-class), supposant que toutes les données d'entraînement sont normales, soit sur une approche faiblement supervisée, qui nécessite uniquement des étiquettes au niveau de la vidéo (normale/anormale). Pour proposer une approche unifiée permettant de traiter ces deux cadres de VAD, nous introduisons un cadre d'apprentissage auto-supervisé à représentation creuse (S3R), qui modélise le concept d’anomalie au niveau des caractéristiques en exploitant la synergie entre une représentation basée sur un dictionnaire et l’apprentissage auto-supervisé. Grâce au dictionnaire appris, S3R permet de mettre en œuvre deux modules couplés, en-Normal et de-Normal, chargés de reconstruire les caractéristiques au niveau des extraits (snippets) et de filtrer les caractéristiques associées aux événements normaux. Les techniques auto-supervisées permettent également de générer des échantillons de pseudo-événements normaux/anormaux afin d’entraîner le détecteur d’anomalies. Nous démontrons, à l’aide d’expériences étendues, que S3R atteint de nouveaux états de l’art sur des jeux de données standards populaires pour les tâches de VAD à un seul type et faiblement supervisée. Notre code est disponible publiquement à l’adresse suivante : https://github.com/louisYen/S3R.