STemGAN : réseau antagoniste génératif spatio-temporel pour la détection d'anomalies dans les vidéos
La détection automatique et l’interprétation des événements anormaux sont devenues des tâches essentielles dans les systèmes de surveillance vidéo à grande échelle. Les défis proviennent principalement du manque de définition claire de l’anormalité, ce qui limite l’application des méthodes supervisées. À cet effet, nous proposons une nouvelle méthode non supervisée de détection d’anomalies, nommée Réseau Génératif Adversarial Spatio-Temporel (STemGAN). Ce cadre repose sur un générateur et un discriminateur qui apprennent à partir du contexte vidéo, en exploitant à la fois les informations spatiales et temporelles pour prédire les trames futures. Le générateur suit une architecture d’Autoencodeur (AE), comprenant un encodeur à double flux pour extraire les informations d’apparence et de mouvement, ainsi qu’un décodeur intégrant un module d’attention sur les canaux (CA) afin de se concentrer sur les caractéristiques dynamiques du premier plan. Par ailleurs, nous introduisons une méthode de transfert d’apprentissage qui améliore la généralisation de STemGAN. Nous évaluons la performance de notre approche sur des jeux de données standardisés de détection d’anomalies (AD), en comparant les résultats aux méthodes de pointe existantes à l’aide de métriques d’évaluation classiques, à savoir le AUC (Aire sous la courbe) et le EER (Taux d’erreur égal). Les résultats expérimentaux montrent que notre méthode STemGAN surpasser les approches de pointe existantes, atteignant un score AUC de 97,5 % sur UCSDPed2, 86,0 % sur CUHK Avenue, 90,4 % sur Subway-entrance et 95,2 % sur Subway-exit.