U-Net régularisée par contraste pour la détection d'anomalies dans les vidéos
La détection d'anomalies vidéo vise à identifier les segments anormaux dans une séquence vidéo. Elle est généralement entraînée à l’aide d’étiquettes faiblement supervisées au niveau de la vidéo. Ce papier se concentre sur deux facteurs cruciaux influençant les performances des modèles de détection d’anomalies vidéo. Premièrement, nous explorons comment capturer de manière plus efficace les dépendances temporelles locales et globales. Les architectures précédentes sont efficaces pour modéliser soit les informations locales, soit les informations globales, mais pas les deux simultanément. Nous proposons d’adopter une structure inspirée du U-Net afin de modéliser ces deux types de dépendances dans une architecture unifiée : l’encodeur apprend hiérarchiquement les dépendances globales à partir des dépendances locales, puis le décodeur propage ces informations globales vers le niveau des segments pour la classification. Deuxièmement, le surapprentissage constitue un problème non négligeable dans la détection d’anomalies vidéo en raison de la quantité limitée de données d’entraînement. Nous proposons une régularisation contrastive faiblement supervisée basée sur les caractéristiques, qui régularise le réseau à l’aide d’une approche fondée sur les caractéristiques. La régularisation contrastive apprend des caractéristiques plus généralisables en imposant une séparabilité inter-classes et une compacité intra-classes. Des expériences étendues sur le jeu de données UCF-Crime montrent que notre approche surpasse plusieurs méthodes de pointe.