Réseau d'attention guidée par l'audio pour la détection faiblement supervisée de violences
La détection de la violence dans les vidéos constitue une tâche difficile en raison de la complexité des scènes et de la forte variabilité intra-classe. La plupart des travaux antérieurs se concentrent sur l'analyse des informations d'apparence ou des mouvements, tout en ignorant la co-occurrence d'événements audiovisuels. Les conflits physiques tels que les agressions ou les bagarres sont généralement accompagnés de cris, tandis que la violence de foule, comme les émeutes ou les conflits armés, est souvent associée à des coups de feu ou des explosions. Ainsi, nous proposons un nouveau cadre de détection de la violence multimodale guidée par l’audio. Tout d’abord, des réseaux neuronaux profonds sont utilisés pour extraire séparément les caractéristiques d’apparence et audio. Ensuite, nous introduisons un réseau de type Cross-Modal Awareness Local-Arousal (CMA-LA) pour favoriser l’interaction entre modalités, permettant une amélioration des caractéristiques visuelles à partir des signaux audio sur le plan temporel. Les caractéristiques ainsi améliorées sont ensuite traitées par un perceptron multicouche (MLP) afin de capturer des sémantiques de haut niveau, suivi d’une couche de convolution temporelle pour obtenir des scores de violence à haute confiance. Pour valider la méthodologie proposée, nous menons des expériences sur un grand jeu de données vidéo violent, XD Violence. Des expériences approfondies démontrent la robustesse de notre approche, qui atteint également un nouveau record en termes de précision moyenne (AP).