Reconnaissance d'actions basée sur le squelette de personnes manipulant des objets

Dans les systèmes de surveillance visuelle, il est nécessaire de reconnaître le comportement des personnes manipulant des objets tels que des téléphones, des tasses ou des sacs en plastique. Dans cet article, pour résoudre ce problème, nous proposons un nouveau cadre permettant la reconnaissance d'actions humaines liées aux objets à l'aide de réseaux de neurones convolutifs sur graphes (graph convolutional networks) en utilisant les postures humaines et des objets. Dans ce cadre, nous construisons des graphes squelettiques de postures humaines fiables en sélectionnant de manière sélective les images informatives dans une vidéo, qui incluent les articulations humaines avec des scores de confiance élevés obtenus lors de l'estimation des postures. Les graphes squelettiques générés à partir des images échantillonnées représentent les postures humaines associées à la position de l'objet dans les domaines spatiaux et temporels, et ces graphes sont utilisés comme entrées pour les réseaux de neurones convolutifs sur graphes. À travers des expérimentations sur un banc d'essai ouvert et nos propres ensembles de données, nous vérifions la validité de notre cadre en démontrant que notre méthode surpasse la méthode d'avant-garde pour la reconnaissance d'actions basée sur le squelette.