Un réseau de neurones profond à flux multiples avec fusion floue tardive pour la détection d'anomalies dans le monde réel
La détection d’événements anormaux dans les vidéos est également connue sous le nom de détection d’outliers, domaine où l’apprentissage automatique s’avère particulièrement efficace. Lorsqu’un vidéo inconnue est soumise à un test, l’objectif de ces méthodes consiste à vérifier sa catégorie, par exemple normale ou anormale. Ce papier exploite les informations visuelles provenant à la fois de vidéos normales et anormales afin d’entraîner un classificateur basé sur l’apprentissage par instances multiples profond (deep multiple instance learning) pour la classification des vidéos. Les classificateurs existants fondés sur l’apprentissage par instances multiples supposent que les vidéos d’entraînement ne contiennent que des événements anormaux de courte durée. Cette hypothèse peut ne pas être valable pour tous les anomalies réelles. En outre, la présence de plusieurs occurrences d’anomalies au sein des vidéos d’entraînement ne peut être exclue. Ce travail démontre que l’intégration d’informations temporelles dans l’extraction de caractéristiques permet d’améliorer significativement les performances de détection d’anomalies. Pour atteindre cet objectif, deux extracteurs de caractéristiques profondes spatio-temporelles ont été appliqués en parallèle sur les vidéos d’entraînement. Ces deux flux sont ensuite utilisés pour entraîner un classificateur basé sur une version modifiée de l’apprentissage par instances multiples. Enfin, une aggregation floue est appliquée afin de fusionner les scores d’anomalie. Par ailleurs, deux classificateurs légers basés sur l’apprentissage profond ont été utilisés pour valider l’efficacité du modèle dans la classification des événements liés aux incendies et aux accidents. Afin d’évaluer la fiabilité et les performances de la méthode proposée, des expériences approfondies ont été menées sur le jeu de données UCF-Crime, comprenant 13 catégories d’anomalies. Ce jeu de données a été réorganisé en cinq grandes catégories selon la gravité des actions, afin d’étudier la robustesse de la méthode proposée. Le papier fournit des preuves empiriques suffisantes démontrant que l’intégration de caractéristiques temporelles dans le pipeline améliore de manière significative la précision de détection des anomalies. En outre, le modèle permet de détecter efficacement des anomalies de longue durée, une capacité qui n’était pas réalisable avec les méthodes existantes. L’architecture multi-flux end-to-end proposée atteint une précision de détection des événements anormaux allant jusqu’à 84,48 %, surpassant ainsi les performances des méthodes existantes de détection d’anomalies vidéo. En outre, la précision de détection par catégorie s’est améliorée de 6 à 14 % sur diverses grandes catégories.