Un ensemble de modèles de partage de connaissances pour la reconnaissance de gestes manuels dynamiques

L’objectif de cet article est la reconnaissance de gestes dynamiques dans le cadre des interactions entre êtres humains et machines. Nous proposons un modèle composé de deux sous-réseaux : un transformateur et un réseau de neurones récurrents (RNN) basé sur un long-short-term-memory à neurones ordonnés (ON-LSTM). Chaque sous-réseau est entraîné pour effectuer la tâche de reconnaissance de gestes à l’aide uniquement des articulations squelettiques. En raison des différences d’architecture entre les deux sous-réseaux, chacun extrait des types de caractéristiques distincts, permettant ainsi un partage de connaissances entre eux. Grâce à une distillation de connaissances, les caractéristiques et les prédictions issues de chaque sous-réseau sont fusionnées pour former un nouveau classificateur de fusion. Par ailleurs, l’utilisation d’un taux d’apprentissage cyclique permet de générer une série de modèles, combinés par ensemble (ensemble learning), afin d’obtenir une prédiction plus généralisable. L’ensemble de modèles partageant des connaissances proposé atteint une précision globale de 86,11 %, uniquement à partir d’informations squelettiques, comme évalué sur le jeu de données Dynamic Hand Gesture-14/28.