Apprentissage de l'interaction humaine sur des nuages de points squelettiques 3D pour la reconnaissance de la violence vidéo

Cet article présente une nouvelle méthode de reconnaissance du comportement violent, fondée sur l’apprentissage des relations contextuelles entre individus liés à partir de points squelettiques humains. Contrairement aux travaux antérieurs, nous formulons d’abord des nuages de points en 3D à partir de séquences squelettiques humaines extraites des vidéos, puis réalisons un apprentissage d’interaction sur ces nuages de points en 3D. Un nouveau module, dénommé Skeleton Points Interaction Learning (SPIL), est proposé pour modéliser les interactions entre points squelettiques. Plus précisément, en mettant en place une stratégie de distribution de poids spécifique entre points régionaux locaux, le module SPIL vise à se concentrer sélectivement sur les parties les plus pertinentes, en fonction de leurs caractéristiques ainsi que de leurs informations spatio-temporelles. Afin de capturer divers types d’informations relationnelles, un mécanisme à plusieurs têtes est conçu pour agréger des caractéristiques différentes issues de têtes indépendantes, permettant ainsi de traiter conjointement différents types de relations entre points. Les résultats expérimentaux montrent que notre modèle surpasse les réseaux existants et atteint une performance nouvelle et optimale sur des jeux de données vidéo de violence.