Détection d'anomalies vidéo faiblement supervisée basée sur BatchNorm

Dans le domaine de la détection d'anomalies vidéo faiblement supervisée (WVAD), où seules des étiquettes au niveau de la vidéo indiquant la présence ou l'absence d'événements anormaux sont disponibles, le principal défi réside dans l'ambiguïté inhérente aux annotations temporelles des occurrences anormales. Inspirés par l'observation statistique selon laquelle les caractéristiques temporelles des événements anormaux présentent souvent des caractéristiques d'outliers, nous proposons une nouvelle méthode, BN-WVAD, qui intègre BatchNorm à WVAD. Dans le cadre de BN-WVAD, nous utilisons la divergence du vecteur caractéristique par rapport au vecteur moyen (Divergence of Feature from Mean vector - DFM) de BatchNorm comme critère fiable d'anormalité pour identifier les segments potentiels anormaux dans les vidéos anormales. Le critère DFM proposé est également discriminant pour la reconnaissance d'anomalies et plus résilient face au bruit des étiquettes, servant de score d'anomalie supplémentaire pour corriger les prédictions du classifieur d'anomalies qui est sensible aux étiquettes bruyantes. De plus, une stratégie de sélection au niveau du batch a été conçue pour filtrer davantage de segments anormaux dans les vidéos où un plus grand nombre d'événements anormaux se produisent. Le modèle BN-WVAD proposé montre des performances de pointe sur UCF-Crime avec un AUC de 87,24 % et sur XD-Violence, où l'AP atteint jusqu'à 84,93 %. Notre implémentation du code est accessible à l'adresse suivante : https://github.com/cool-xuan/BN-WVAD.