Détection et localisation d'anomalies vidéo faiblement supervisées avec des indices spatio-temporels

La tâche actuelle de détection d'anomalies vidéo faiblement supervisée (WSVAD) vise à réaliser une détection d'événements anormaux au niveau des images avec uniquement des annotations vidéo de basse résolution disponibles. Les travaux existants impliquent généralement l'extraction de caractéristiques globales à partir d'images vidéo en pleine résolution et la formation de classifieurs au niveau des images pour détecter les anomalies dans la dimension temporelle. Cependant, la plupart des événements anormaux tendent à se produire dans des régions spatiales localisées plutôt que sur l'ensemble des images vidéo, ce qui suggère que les approches existantes basées sur les caractéristiques au niveau des images peuvent être induites en erreur par les informations de fond dominantes et manquent d'interprétation des anomalies détectées. Pour résoudre ce dilemme, cet article introduit une nouvelle méthode appelée STPrompt qui apprend des plongements (embeddings) d'indications spatio-temporelles pour la détection et la localisation faiblement supervisées d'anomalies vidéo (WSVADL), en s'appuyant sur des modèles pré-entraînés vision-langage (VLMs). Notre méthode proposée utilise une structure de réseau à deux flux, l'un se concentrant sur la dimension temporelle et l'autre principalement sur la dimension spatiale. En exploitant les connaissances acquises par les VLMs pré-entraînés et en intégrant les a priori naturels du mouvement provenant des vidéos brutes, notre modèle apprend des plongements d'indications alignés avec les régions spatio-temporelles des vidéos (par exemple, des patchs d'images individuelles) pour identifier spécifiquement les régions locales d'anomalies, permettant ainsi une détection précise des anomalies vidéo tout en atténuant l'influence des informations de fond. Sans dépendre d'annotations spatio-temporelles détaillées ou de méthodes auxiliaires de détection/suivi d'objets, notre méthode atteint un niveau de performance record sur trois benchmarks publics pour la tâche WSVADL.