Squelettes humains et détection de changements pour une détection efficace de la violence dans les vidéos de surveillance
Dans notre monde constamment surveillé, les caméras de vidéosurveillance jouent un rôle essentiel dans la prévention de la criminalité et de la violence dans les espaces publics en agissant comme un puissant dissuasif. Pour renforcer leur efficacité, une demande croissante s’impose pour des outils automatisés capables de détecter en temps réel les actes criminels. Dans cet article, nous proposons une nouvelle architecture d’apprentissage profond, capable de détecter avec précision et efficacité les crimes violents dans les vidéos de surveillance. Nous nous appuyons sur ce que nous considérons comme les éléments d’information les plus fondamentaux pour la détection de la violence : les corps humains et leurs interactions. À cette fin, nous utilisons des extracteurs de posture humaine et des détecteurs de changements comme entrées dans notre proposition. Ensuite, nous combinons ces informations par une méthode originale reposant sur des additions plutôt que des multiplications, garantissant ainsi la transmission d’informations même lorsque l’une des entrées fournit un signal nul — une approche qui surpasserait les autres méthodes de combinaison proposées dans la littérature. Enfin, pour tenir compte à la fois des informations spatiales et temporelles, nous employons une variante convolutive du LSTM classique, appelée ConvLSTM. Les expérimentations menées sur plusieurs jeux de données standard démontrent l’efficacité et l’efficience de notre approche, atteignant des résultats de pointe tout en nécessitant beaucoup moins de paramètres entraînables. Nous mettons à disposition le code source permettant de reproduire l’architecture proposée à l’adresse suivante : https://github.com/atmguille/Violence-Detection-With-Human-Skeletons