Les auto-encodeurs masqués auto-distillés sont des détecteurs efficaces d'anomalies vidéo

Nous proposons un modèle efficace de détection d’événements anormaux basé sur un auto-encodeur masqué léger (AE) appliqué au niveau des trames vidéo. La nouveauté de ce modèle repose sur trois aspects principaux. Premièrement, nous introduisons une méthode pour pondérer les tokens en fonction des gradients de mouvement, ce qui permet de déplacer l’attention du fond statique vers les objets en premier plan. Deuxièmement, nous intégrons un décodeur enseignant et un décodeur élève dans notre architecture, exploitant la différence entre leurs sorties pour améliorer la détection d’anomalies. Troisièmement, nous générons des événements anormaux synthétiques afin d’enrichir les vidéos d’entraînement, et nous sollicitons le modèle d’auto-encodeur masqué pour reconstruire simultanément les trames originales (sans anomalies) et les cartes de anomalies au niveau des pixels correspondantes. Notre conception conduit à un modèle à la fois efficace et performant, comme le démontrent les expérimentations approfondies menées sur quatre benchmarks : Avenue, ShanghaiTech, UBnormal et UCSD Ped2. Les résultats expérimentaux montrent que notre modèle atteint un excellent compromis entre vitesse et précision, obtenant des scores AUC compétitifs tout en traitant jusqu’à 1655 FPS. Ainsi, notre modèle est entre 8 et 70 fois plus rapide que les méthodes concurrentes. Nous menons également une étude d’ablation pour justifier notre architecture. Le code source est disponible librement à l’adresse suivante : https://github.com/ristea/aed-mae.