Réseau multi-échelle contextuel avec Transformer pour la reconnaissance de la démarche

Bien que la reconnaissance de la démarche ait récemment attiré une attention croissante de la part des chercheurs, les différences de silhouettes dans le domaine spatial sont assez subtiles, ce qui rend la représentation des caractéristiques temporelles cruciale pour la reconnaissance de la démarche. Inspirés par l'observation selon laquelle les humains peuvent distinguer les démarches de différents sujets en se concentrant de manière adaptative sur des séquences à différentes échelles temporelles, nous proposons un réseau multi-échelle contextuel avec transformer (MCAT) pour la reconnaissance de la démarche. Le MCAT génère des caractéristiques temporelles à trois échelles et les agrège de manière adaptative en utilisant des informations contextuelles à la fois locales et globales. Plus précisément, le MCAT contient un module d'agrégation temporelle adaptative (ATA) qui effectue un modèle de relations locales suivi d'un modèle de relations globales pour fusionner les caractéristiques multi-échelles. De plus, afin de remédier à la corruption des caractéristiques spatiales résultant des opérations temporelles, le MCAT intègre un module d'apprentissage des caractéristiques spatiales saillantes (SSFL) pour sélectionner des groupes de caractéristiques spatiales discriminantes. Des expériences approfondies menées sur trois jeux de données démontrent les performances d'avant-garde du modèle. Concrètement, nous obtenons des précisions au rang 1 de 98,7 %, 96,2 % et 88,7 % sous les conditions normales de marche, portant un sac et portant une veste sur CASIA-B ; 97,5 % sur OU-MVLP ; et 50,6 % sur GREW. Le code source sera disponible à l'adresse suivante : https://github.com/zhuduowang/MCAT.git.