GaitMixer : Apprentissage de représentations de la démarche basées sur le squelette par un mélangeur multi-axial à large spectre

La plupart des méthodes de reconnaissance de la démarche existantes sont basées sur l'apparence, ce qui signifie qu'elles s'appuient sur les silhouettes extraites des données vidéo d'activités de marche humaine. Les méthodes de reconnaissance de la démarche basées sur le squelette, moins étudiées, apprennent directement la dynamique de la démarche à partir de séquences de squelettes humains 2D/3D, qui constituent théoriquement des solutions plus robustes en présence de changements d'apparence dus aux vêtements, aux coupes de cheveux et aux objets transportés. Cependant, les performances des solutions basées sur le squelette restent largement en retard par rapport à celles basées sur l'apparence. Cet article vise à combler cet écart de performance en proposant un nouveau modèle de réseau, GaitMixer, pour apprendre une représentation plus discriminante de la démarche à partir des données de séquences squelettiques. Plus précisément, GaitMixer suit une architecture mixte hétérogène multi-axiale, qui exploite un mélangeur d'auto-attention spatiale suivi d'un mélangeur de convolution à noyau large temporel pour apprendre des signaux multifréquentiels riches dans les cartes de caractéristiques de la démarche. Les expériences menées sur la base de données de démarche largement utilisée CASIA-B montrent que GaitMixer surpassent les méthodes squelettiques précédentes SOTA (State Of The Art) avec une grande marge tout en atteignant une performance compétitive par rapport aux solutions basées sur l'apparence représentatives. Le code sera disponible à l'adresse suivante : https://github.com/exitudio/gaitmixer