Reconnaissance de la violence à partir de vidéos en utilisant des techniques d'apprentissage profond
La reconnaissance automatique de violences entre individus ou dans des foules à partir de vidéos suscite un intérêt croissant. Dans ce travail, nous proposons un modèle de réseau de neurones profond end-to-end destiné à la reconnaissance de violences dans les vidéos. Le modèle proposé utilise un VGG-16 pré-entraîné sur ImageNet comme extracteur de caractéristiques spatiales, suivi d’un réseau de mémoire à long terme (LSTM) pour l’extraction des caractéristiques temporelles, ainsi que d’une suite de couches entièrement connectées pour la classification. L’exactitude obtenue est proche de l’état de l’art. Par ailleurs, nous contribuons en introduisant un nouveau benchmark appelé Real-Life Violence Situations, comprenant 2 000 vidéos courtes réparties en 1 000 vidéos montrant des situations violentes et 1 000 vidéos sans violence. Ce nouveau benchmark est utilisé pour le fine-tuning des modèles proposés, permettant d’atteindre une précision maximale de 88,2 %.