ConvFormer : Réduction des paramètres dans les modèles Transformer pour l'estimation de la posture humaine 3D en utilisant l'attention convolutive multi-têtes dynamique

Récemment, les architectures entièrement basées sur des transformateurs ont remplacé les architectures convolutionnelles de facto pour la tâche d'estimation de la posture humaine en 3D. Dans cet article, nous proposons \textit{ConvFormer}, un nouveau transformateur convolutionnel qui utilise un mécanisme de \textit{self-attention convolutive multi-têtes dynamique} pour l'estimation de la posture humaine en 3D à partir d'une seule caméra. Nous avons conçu un transformateur convolutionnel spatial et temporel pour modéliser de manière exhaustive les relations entre les articulations humaines au sein de chaque image et globalement tout au long de la séquence de mouvement. De plus, nous introduisons le concept novateur de \textit{profil temporel des articulations} pour notre transformateur temporel ConvFormer, qui fusionne immédiatement toutes les informations temporelles pour un voisinage local des caractéristiques articulaires. Nous avons validé notre méthode quantitativement et qualitativement sur trois jeux de données de référence courants : Human3.6M, MPI-INF-3DHP et HumanEva. Des expériences approfondies ont été menées pour identifier l'ensemble optimal des hyperparamètres. Ces expériences ont démontré que nous avons réalisé une réduction significative du nombre de paramètres par rapport aux modèles transformateurs précédents tout en atteignant l'état de l'art (SOTA) ou presque SOTA sur les trois jeux de données. De plus, nous avons obtenu SOTA pour le Protocole III sur H36M, tant pour les entrées détectées par GT que par CPN. Enfin, nous avons obtenu SOTA sur tous les trois critères du jeu de données MPI-INF-3DHP et sur les trois sujets du jeu de données HumanEva selon le Protocole II.