Visualisation améliorée du squelette pour la reconnaissance d’actions humaines invariantes par rapport à la vue
La reconnaissance d’actions humaines basée sur les squelettes trouve de nombreuses applications dans l’interaction homme-machine et la surveillance intelligente. Toutefois, les variations de vue et les données bruitées posent des défis importants à cette tâche. En outre, il demeure un défi majeur de représenter efficacement les séquences spatio-temporelles de squelettes. Afin de résoudre ces problèmes dans un cadre unifié, ce travail présente une méthode améliorée de visualisation de squelettes pour la reconnaissance d’actions humaines invariante aux vues. Notre méthode se compose de trois étapes. Premièrement, une transformation invariante aux vues basée sur les séquences est proposée afin d’éliminer l’effet des variations de vue sur les positions spatio-temporelles des articulations du squelette. Deuxièmement, les squelettes transformés sont visualisés sous forme d’une série d’images en couleur, qui codent implicitement les informations spatio-temporelles des articulations. Par ailleurs, des méthodes d’amélioration visuelle et de renforcement du mouvement sont appliquées aux images en couleur afin d’accentuer leurs motifs locaux. Troisièmement, un modèle basé sur les réseaux de neurones convolutifs est adopté pour extraire des caractéristiques robustes et discriminantes à partir des images en couleur. Les scores finaux de classification des actions sont obtenus par fusion au niveau de la décision des caractéristiques profondes. Des expériences étendues sur quatre jeux de données exigeants démontrent de manière cohérente l’efficacité supérieure de notre méthode.