Fusion des caractéristiques infrarouges et squelettiques 3D pour la reconnaissance d’actions RGB-D

Un défi de la reconnaissance d’actions basée sur les squelettes réside dans la difficulté à classifier des actions présentant des mouvements similaires ou impliquant des objets. Les indices visuels provenant d’autres flux vidéo sont alors particulièrement utiles. Les données RGB sont sensibles aux conditions d’éclairage, ce qui les rend inutilisables dans l’obscurité. Pour atténuer ce problème tout en tirant parti d’un flux visuel, nous proposons un réseau modulaire (FUSION) combinant des données squelettiques et infrarouges. Un réseau neuronal à convolution 2D (CNN) est utilisé comme module de posture pour extraire des caractéristiques à partir des données squelettiques. Un CNN 3D est quant à lui employé comme module infrarouge pour extraire des indices visuels à partir des vidéos. Les vecteurs de caractéristiques issus des deux modules sont ensuite concaténés et exploités conjointement via un perceptron multicouche (MLP). Les données squelettiques conditionnent également les vidéos infrarouges en fournissant une région d’intérêt centrée sur les sujets en action, ce qui focalise virtuellement l’attention du module infrarouge. Des études d’ablation montrent que l’utilisation de réseaux pré-entraînés sur d’autres grands jeux de données ainsi que des techniques d’augmentation de données entraînent des améliorations significatives de la précision de classification des actions. La contribution notable de notre stratégie de découpage (cropping) est également démontrée. Nous évaluons notre méthode sur le jeu de données NTU RGB+D, le plus grand ensemble de données pour la reconnaissance d’actions humaines à partir de caméras à profondeur, et rapportons des performances de pointe (state-of-the-art).