HyperAIHyperAI
il y a 17 jours

SSMTL++ : Repenser l'apprentissage multi-tâches auto-supervisé pour la détection d'anomalies vidéo

Antonio Barbalau, Radu Tudor Ionescu, Mariana-Iuliana Georgescu, Jacob Dueholm, Bharathkumar Ramachandra, Kamal Nasrollahi, Fahad Shahbaz Khan, Thomas B. Moeslund, Mubarak Shah
SSMTL++ : Repenser l'apprentissage multi-tâches auto-supervisé pour la détection d'anomalies vidéo
Résumé

Un cadre d’apprentissage multi-tâches auto-supervisé (SSMTL) pour la détection d’anomalies dans les vidéos a récemment été introduit dans la littérature. En raison de ses résultats hautement précis, cette méthode a attiré l’attention de nombreux chercheurs. Dans ce travail, nous revisitons le cadre d’apprentissage multi-tâches auto-supervisé, en proposant plusieurs améliorations par rapport à la méthode originale. Premièrement, nous étudions diverses approches de détection, telles que la détection des régions à fort mouvement à l’aide du flux optique ou de la soustraction de fond, car nous estimons que le modèle pré-entraîné YOLOv3 actuellement utilisé est sous-optimal : les objets en mouvement ou ceux appartenant à des classes inconnues ne sont jamais détectés. Deuxièmement, nous modernisons le modèle de base à convolution 3D en introduisant des modules d’attention auto-supervisée à plusieurs têtes, inspirés du succès récent des transformateurs visuels. Ainsi, nous proposons alternativement des blocs de transformateur visuel à convolution 2D et 3D (CvT). Troisièmement, dans notre quête d’amélioration supplémentaire du modèle, nous explorons de nouvelles tâches d’apprentissage auto-supervisé, telles que la prédiction de cartes de segmentation par distillation de connaissances, la résolution de puzzles de type jigsaw, l’estimation de posture corporelle via distillation de connaissances, la prédiction des régions masquées (inpainting) et l’apprentissage adversaire basé sur des anomalies pseudo-réelles. Nous menons des expériences afin d’évaluer l’impact des modifications introduites. En identifiant des configurations plus prometteuses du cadre, désignées SSMTL++v1 et SSMTL++v2, nous étendons nos expériences préliminaires à plusieurs jeux de données supplémentaires, démontrant que nos gains de performance sont cohérents sur l’ensemble des jeux de données. Dans la plupart des cas, nos résultats sur les jeux de données Avenue, ShanghaiTech et UBnormal établissent une nouvelle barre de référence pour l’état de l’art.