Reconnaissance et Localisation de la Violence Vidéo à l'Aide d'un Modèle d'Attention Difficile Semi-Supervisé

La croissance significative des réseaux de caméras de surveillance nécessite des solutions d'IA évolutives pour analyser efficacement la grande quantité de données vidéo produites par ces réseaux. La détection de violence dans les vidéos, une analyse typique effectuée sur les images de surveillance, a récemment attiré beaucoup d'attention. La plupart des recherches se sont concentrées sur l'amélioration des méthodes existantes en utilisant des approches supervisées, avec peu ou pas d'attention accordée aux méthodes d'apprentissage semi-supervisé. Dans cette étude, un modèle d'apprentissage par renforcement est introduit, capable de surpasser les modèles existants grâce à une approche semi-supervisée. L'innovation principale de la méthode proposée réside dans l'introduction d'un mécanisme d'attention difficile semi-supervisé (semi-supervised hard attention mechanism). En utilisant l'attention difficile, les régions essentielles des vidéos sont identifiées et séparées des parties non informatives des données. La précision du modèle est améliorée en éliminant les données redondantes et en se concentrant sur les informations visuelles utiles à une résolution plus élevée. L'implémentation de mécanismes d'attention difficiles à l'aide d'algorithmes d'apprentissage par renforcement semi-supervisés élimine le besoin d'annotations d'attention dans les jeux de données de violence vidéo, rendant ainsi ces modèles facilement applicables. Le modèle proposé utilise un tronc pré-entraîné I3D pour accélérer et stabiliser le processus d'entraînement. Le modèle proposé a atteint une précision record de 90,4 % et 98,7 % sur les jeux de données RWF et Hockey, respectivement.