Fonctionnalités de contexte améliorées par l’apprentissage de prompt pour la détection faiblement supervisée des anomalies dans les vidéos

La détection d’anomalies vidéo en apprentissage faiblement supervisé soulève des défis importants, notamment en raison de l’absence d’étiquettes au niveau des trames pendant l’entraînement. Bien que les recherches antérieures aient utilisé des réseaux de convolution sur graphes et des mécanismes d’attention auto-associative conjointement avec une perte de classification basée sur l’apprentissage par instances multiples (MIL) afin de modéliser les relations temporelles et d’apprendre des caractéristiques discriminantes, ces méthodes s’appuient souvent sur des architectures à plusieurs branches pour capturer séparément les dépendances locales et globales, entraînant une augmentation du nombre de paramètres et des coûts computationnels. En outre, la séparabilité inter-classes de granularité grossière fournie par la contrainte binaire de la perte MIL néglige la discriminabilité fine au sein des classes anormales. À cette fin, ce papier présente un cadre de détection d’anomalies faiblement supervisé axé sur une modélisation efficace du contexte et une discriminabilité sémantique améliorée. Nous proposons un module d’agrégation contextuelle temporelle (TCA) qui capte des informations contextuelles complètes en réutilisant la matrice de similarité et en mettant en œuvre une fusion adaptative. Par ailleurs, nous introduisons un module d’apprentissage renforcé par des prompts (PEL), intégrant des connaissances a priori sémantiques via des prompts basés sur des connaissances, afin d’améliorer la capacité discriminante des caractéristiques contextuelles tout en garantissant une séparabilité entre les sous-classes anormales. Des expériences étendues valident l’efficacité des composants de notre méthode, démontrant des performances compétitives avec un nombre réduit de paramètres et un effort computationnel moindre sur trois benchmarks exigeants : UCF-Crime, XD-Violence et ShanghaiTech. Notamment, notre approche améliore significativement la précision de détection pour certaines sous-classes d’anomalies, soulignant ainsi sa valeur pratique et son efficacité. Notre code est disponible à l’adresse suivante : https://github.com/yujiangpu20/PEL4VAD.