il y a 16 jours

Représentation d’image squelette pour la reconnaissance d’actions 3D basée sur une structure arborescente et des articulations de référence

Carlos Caetano, François Brémond, William Robson Schwartz

Résumé

Au cours des dernières années, la communauté de recherche en vision par ordinateur s’est intéressée à la modélisation des dynamiques temporelles dans les vidéos afin d’effectuer la reconnaissance d’actions humaines en 3D. À cette fin, deux approches de base ont été largement étudiées : (i) les réseaux de neurones récurrents (RNN) dotés de mémoire à court et long terme (LSTM) ; et (ii) les représentations squelettiques utilisées comme entrée d’un réseau de neurones convolutif (CNN). Bien que les approches basées sur les RNN obtiennent de très bons résultats, elles manquent de capacité à apprendre efficacement les relations spatiales entre les articulations du squelette. En revanche, les représentations utilisées pour alimenter les approches basées sur les CNN présentent l’avantage de posséder naturellement la capacité d’apprendre des informations structurelles à partir de tableaux bidimensionnels (c’est-à-dire d’extraire les relations spatiales entre les articulations du squelette). Pour améliorer davantage ces représentations, nous introduisons une nouvelle représentation squelettique appelée Image des articulations de référence en structure arborescente (TSRJI, Tree Structure Reference Joints Image), conçue pour être utilisée comme entrée dans les CNN. Cette représentation proposée présente l’avantage de combiner l’utilisation d’articulations de référence et d’une structure arborescente du squelette. Alors que les premières permettent de capturer différentes relations spatiales entre les articulations, la seconde préserve les relations spatiales importantes en parcourant l’arbre du squelette selon un algorithme d’exploration en profondeur. Les résultats expérimentaux démontrent l’efficacité de cette représentation pour la reconnaissance d’actions en 3D sur deux jeux de données, atteignant des performances de pointe sur le jeu de données récent NTU RGB+D~120.