Autoencodeur résiduel à attention pour la détection d'anomalies vidéo

La détection automatique des anomalies constitue une tâche cruciale dans les systèmes de surveillance vidéo, largement utilisés pour la sécurité publique et d'autres applications. Le système actuel repose sur un réseau unifié intégrant une branche spatiale et une branche temporelle, permettant d’exploiter efficacement à la fois les informations spatiales et temporelles. Ce réseau adopte une architecture d’autoencodeur résiduel, composée d’un encodeur basé sur un réseau neuronal à convolution profond et d’un décodeur à attente par canaux multi-étapes, entraîné de manière non supervisée. La méthode de décalage temporel est utilisée pour extraire les caractéristiques temporelles, tandis que les dépendances contextuelles sont captées par des modules d’attention par canaux. La performance du système est évaluée à l’aide de trois jeux de données standards de référence. Les résultats montrent que notre réseau surpasser les méthodes de pointe, atteignant respectivement 97,4 % pour le jeu de données UCSD Ped2, 86,7 % pour CUHK Avenue et 73,6 % pour le jeu de données ShanghaiTech en termes de surface sous la courbe (AUC).