MGFN : Réseau d'attention-glance et focus contrastif par magnitude pour la détection faiblement supervisée d'anomalies dans les vidéos

La détection faiblement supervisée des anomalies dans les vidéos de surveillance constitue une tâche difficile. Allant au-delà des approches existantes, qui présentent des capacités insuffisantes pour localiser les anomalies dans des vidéos longues, nous proposons un nouveau réseau « glance and focus » afin d’intégrer efficacement les informations spatiales et temporelles pour une détection précise des anomalies. Par ailleurs, nous avons constaté empiriquement que les méthodes existantes utilisant les amplitudes des caractéristiques pour représenter le degré d’anomalie négligent généralement les effets des variations scéniques, entraînant ainsi des performances sous-optimales en raison de l’incohérence des amplitudes des caractéristiques entre différents scénarios. Pour résoudre ce problème, nous introduisons un mécanisme d’amplification des caractéristiques ainsi qu’une fonction de perte contrastive basée sur les amplitudes, afin d’améliorer la discriminabilité des amplitudes des caractéristiques pour la détection des anomalies. Les résultats expérimentaux sur deux grands jeux de données, UCF-Crime et XD-Violence, montrent que notre méthode surpasser les approches de pointe.