Apprentissage automatique auto-supervisé basé sur la cohérence pour la localisation des anomalies temporelles

Ce travail aborde la détection d’anomalies supervisée faiblement, dans lequel un prédicteur est autorisé à apprendre non seulement à partir d’exemples normaux, mais aussi à partir d’un petit nombre d’anomalies étiquetées disponibles pendant l’entraînement. Plus précisément, nous nous concentrons sur la localisation des activités anormales au sein d’un flux vidéo : il s’agit d’un scénario particulièrement difficile, car les exemples d’entraînement ne disposent que d’étiquettes au niveau de la vidéo (et non au niveau des trames). Plusieurs travaux récents ont proposé divers termes de régularisation pour relever ce défi, par exemple en imposant des contraintes de parcimonie et de régularité sur les scores d’anomalie au niveau des trames appris de manière faiblement supervisée. Dans ce travail, nous nous inspirons des avancées récentes dans le domaine de l’apprentissage auto-supervisé et demandons au modèle de produire les mêmes scores pour différentes augmentations de la même séquence vidéo. Nous démontrons que l’imposition d’une telle alignement améliore significativement les performances du modèle sur le jeu de données XD-Violence.