HyperAIHyperAI
il y a 18 jours

Reconnaissance d'actions à partir de cartes de profondeur utilisant des réseaux de neurones convolutifs profonds

{Jing Zhang, Wanqing Li, Zhimin Gao, Philip Ogunbona, Chang Tang, Pichao Wang}
Résumé

Cet article propose une nouvelle méthode, consistant en des cartes de mouvement en profondeur hiérarchiques pondérées (WHDMM) combinées à des réseaux de neurones convolutifs profonds à trois canaux (3ConvNets), pour la reconnaissance d’actions humaines à partir de cartes de profondeur, en particulier dans le cas de jeux de données d’apprentissage restreints. Trois stratégies sont développées afin d’exploiter pleinement la capacité des ConvNets à extraire des caractéristiques discriminantes pour la reconnaissance. Premièrement, différents points de vue sont simulés en faisant tourner les points 3D des cartes de profondeur capturées. Cette approche permet non seulement de synthétiser davantage de données, mais aussi de rendre les ConvNets tolérants aux variations de vue. Deuxièmement, des WHDMM à plusieurs échelles temporelles sont construites afin de coder les motifs spatio-temporels de mouvement des actions sous forme de structures spatiales 2D. Ces structures 2D sont ensuite améliorées pour la reconnaissance en convertissant les WHDMM en images en pseudo-couleurs. Enfin, les trois ConvNets sont initialisés à partir de modèles pré-entraînés sur ImageNet, puis ajustés finement de manière indépendante sur les WHDMM codées en couleurs, construites dans trois plans orthogonaux. L’algorithme proposé a été évalué sur les jeux de données MSRAction3D, MSRAction3DExt, UTKinect-Action et MSRDailyActivity3D, selon des protocoles croisés par sujet. En outre, la méthode a été testée sur un grand jeu de données constitué en combinant les précédents. Les résultats montrent que la méthode proposée obtient une amélioration de 2 à 9 % sur la plupart des jeux de données individuels. De plus, contrairement aux méthodes existantes dont les performances diminuent avec le nombre croissant d’actions, la méthode proposée maintient sa performance sur le grand jeu de données.