Reconnaissance d'actions basée sur des cartes de trajectoires articulaires avec des réseaux neuronaux convolutifs

Les Réseaux Neuronaux Convolutifs (ConvNets) ont récemment montré des performances prometteuses dans de nombreuses tâches de vision par ordinateur, en particulier la reconnaissance basée sur les images. Comment appliquer efficacement les ConvNets aux données basées sur des séquences reste un problème ouvert. Cet article propose une méthode simple mais efficace pour représenter l'information spatio-temporelle contenue dans les séquences squelettiques 3D sous forme de trois images 2D, en codant les trajectoires articulaires et leurs dynamiques dans la distribution des couleurs des images, appelées Cartes de Trajectoire Articulaire (JTM). La méthode utilise ensuite les ConvNets pour apprendre les caractéristiques discriminantes pour la reconnaissance d'actions humaines. Cette représentation basée sur les images nous permet d'affiner les modèles de ConvNets existants pour la classification des séquences squelettiques sans avoir à former les réseaux à partir de zéro. Les trois JTMs sont générées dans trois plans orthogonaux et fournissent des informations complémentaires entre elles. La reconnaissance finale est encore améliorée grâce à la fusion des scores provenant des trois JTMs. La méthode proposée a été évaluée sur quatre jeux de données de référence publics : le grand ensemble de données NTU RGB+D, l'ensemble de données MSRC-12 Kinect Gesture (MSRC-12), l'ensemble de données G3D et l'ensemble de données UTD Multimodal Human Action (UTD-MHAD), obtenant ainsi des résultats d'état de l'art.