Attention spatio-temporelle Res-TCN pour la reconnaissance de gestes dynamiques de main à partir de squelettes
La reconnaissance de gestes dynamiques de la main est une tâche cruciale mais difficile en vision par ordinateur. Le défi principal réside dans l'extraction efficace de caractéristiques spatiales et temporelles discriminantes afin de modéliser l'évolution des différents gestes. Dans cet article, nous proposons un réseau convolutif temporel résiduel à attention spatiale-temporelle (STA-Res-TCN) en bout à bout pour la reconnaissance de gestes dynamiques basée sur le squelette. Ce modèle apprend différents niveaux d'attention et les attribue à chaque caractéristique spatiale-temporelle extraite par les filtres de convolution à chaque instant. La branche d'attention proposée aide le réseau à se concentrer de manière adaptative sur les trames temporelles et les caractéristiques pertinentes, tout en éliminant les éléments non pertinents qui introduisent souvent un bruit inutile. En outre, le STA-Res-TCN proposé est un modèle léger, capable d’être entraîné et testé en un temps extrêmement court. Des expériences sur les jeux de données DHG-14/28 et SHREC’17 Track montrent que le STA-Res-TCN surpasser les méthodes de pointe dans les deux configurations : celle de 14 gestes et celle plus complexe de 28 gestes.