Détection robuste en temps réel de la violence dans les vidéos utilisant le CNN et le LSTM
La détection des événements violents dans les systèmes de surveillance joue un rôle crucial dans le renforcement de la sécurité urbaine et le travail des forces de l’ordre. L’efficacité des détecteurs d’événements violents est évaluée selon trois critères principaux : la rapidité de réponse, la précision et la généralisation sur différents types de sources vidéo et formats. Plusieurs études se sont concentrées sur la détection de la violence, en se focalisant soit sur la rapidité, soit sur la précision, ou sur les deux, mais sans tenir suffisamment compte de la généralisation à travers diverses sources vidéo. Dans cet article, nous proposons un détecteur en temps réel basé sur des méthodes d’apprentissage profond. Le modèle proposé combine un réseau de neurones convolutifs (CNN) pour l’extraction des caractéristiques spatiales et un réseau de neurones récurrents à mémoire à long terme (LSTM) pour l’apprentissage des relations temporelles, en mettant l’accent sur les trois facteurs clés : la généralité globale, la précision et la vitesse de réponse. Le modèle suggéré atteint une précision de 98 % avec une vitesse de traitement de 131 images par seconde. Une comparaison de la précision et de la vitesse du modèle proposé avec les travaux antérieurs démontre que celui-ci offre la plus haute précision et la vitesse la plus rapide parmi tous les travaux précédents dans le domaine de la détection de la violence.