Test de remplissage de trous aide : Détection efficace des anomalies vidéo par apprentissage à compléter les événements vidéo

En tant que sujet fondamental dans l’interprétation du contenu médiatique, la détection d’anomalies vidéo (VAD, Video Anomaly Detection) a connu des progrès significatifs grâce aux réseaux de neurones profonds (DNN). Toutefois, les méthodes existantes suivent généralement une approche de reconstruction ou de prédiction de trames. Elles souffrent de deux lacunes principales : (1) elles ne parviennent pas à localiser les activités vidéo de manière à la fois précise et complète ; (2) elles manquent de capacités suffisantes pour exploiter efficacement les informations sémantiques de haut niveau et le contexte temporel. Inspirés par le test de complétion de texte (cloze test) couramment utilisé en études linguistiques, nous proposons une nouvelle solution pour la VAD, nommée Video Event Completion (VEC), afin de combler ces lacunes. Premièrement, nous introduisons une nouvelle architecture permettant une encadrement précis et complet des activités vidéo. L’apparence et le mouvement sont exploités comme des indicateurs complémentaires pour localiser les régions d’intérêt (RoI). À partir de chaque RoI, un cube spatio-temporel normalisé (STC) est construit, représentant un événement vidéo, qui constitue la base de la méthode VEC et sert d’unité de traitement fondamentale. Deuxièmement, nous incitons le DNN à capturer des sémantiques de haut niveau en résolvant un test de complétion visuelle. Pour construire ce test, une portion spécifique du STC est supprimée, générant ainsi un événement incomplet (IE). Le DNN apprend alors à restaurer l’événement vidéo original à partir de cet IE en inférant la portion manquante. Troisièmement, afin d’intégrer des dynamiques de mouvement plus riches, un second DNN est entraîné pour prédire le flux optique des zones supprimées. Enfin, deux stratégies d’ensembles, basées sur différents types d’IE et modalités, sont proposées pour améliorer les performances de la VAD, permettant ainsi d’exploiter pleinement le contexte temporel et les informations multimodales. La méthode VEC surpasse de manière constante les approches les plus avancées, avec une marge notable (généralement entre 1,5 % et 5 % en AUROC) sur les benchmarks standards de VAD. Les codes et résultats sont disponibles sur GitHub : github.com/yuguangnudt/VEC_VAD.