Détection d'anomalies dans les vidéos par apprentissage auto-supervisé et multi-tâches

La détection d'anomalies dans les vidéos est un problème complexe en vision par ordinateur. En raison du manque d'événements anormaux lors de l'entraînement, la détection d'anomalies nécessite la conception de méthodes d'apprentissage sans supervision complète. Dans cet article, nous abordons la détection d'événements anormaux dans les vidéos par le biais de l'apprentissage auto-supervisé et de l'apprentissage multitâche au niveau des objets. Nous utilisons tout d'abord un détecteur pré-entraîné pour identifier les objets. Ensuite, nous entraînons un réseau neuronal convolutif 3D pour produire des informations spécifiques aux anomalies discriminantes en apprenant conjointement plusieurs tâches intermédiaires : trois tâches auto-supervisées et une basée sur la distillation de connaissances. Les tâches auto-supervisées sont les suivantes : (i) discrimination des objets se déplaçant vers l'avant/vers l'arrière (flèche du temps), (ii) discrimination des objets dans des images consécutives/intermittentes (irrégularité du mouvement) et (iii) reconstruction des informations d'apparence spécifiques aux objets. La tâche de distillation de connaissances prend en compte à la fois les informations de classification et de détection, générant de grandes disparités entre les modèles enseignant et étudiant lorsque des anomalies surviennent. Selon nos connaissances, nous sommes les premiers à aborder la détection d'événements anormaux dans les vidéos comme un problème d'apprentissage multitâche, intégrant plusieurs tâches intermédiaires auto-supervisées et basées sur la distillation de connaissances dans une seule architecture. Notre architecture légère surpasse les méthodes actuelles sur trois benchmarks : Avenue, ShanghaiTech et UCSD Ped2. De plus, nous menons une étude d'ablation démontrant l'importance d'intégrer l'apprentissage auto-supervisé et la distillation spécifique à la normalité dans un cadre d'apprentissage multitâche.