MIST : Cadre d'auto-entraînement par instances multiples pour la détection d'anomalies dans les vidéos

La détection d’anomalies vidéo faiblement supervisée (WS-VAD) vise à distinguer les anomalies des événements normaux à partir de représentations discriminantes. La plupart des méthodes existantes souffrent d’une représentation vidéo insuffisante. Dans ce travail, nous proposons un cadre d’auto-entraînement multi-exemples (MIST) afin d’affiner efficacement des représentations discriminantes spécifiques à la tâche à partir uniquement d’étiquettes au niveau de la vidéo. En particulier, MIST se compose de deux composants : 1) un générateur de pseudo-étiquettes multi-exemples, qui adopte une stratégie d’échantillonnage continu creux pour produire des pseudo-étiquettes au niveau des segments plus fiables ; et 2) un encodeur de caractéristiques à attention auto-guidée, conçu pour se concentrer automatiquement sur les régions anormales des images tout en extrayant des représentations spécifiques à la tâche. En outre, nous mettons en œuvre un schéma d’auto-entraînement pour optimiser simultanément ces deux composants, aboutissant finalement à un encodeur de caractéristiques spécifique à la tâche. Des expériences étendues sur deux jeux de données publics démontrent l’efficacité de notre méthode, qui atteint des performances comparables, voire supérieures, à celles des méthodes supervisées et faiblement supervisées existantes, notamment un AUC au niveau des trames de 94,83 % sur le dataset ShanghaiTech.