Estimation de la posture 3D humaine avec une attention croisée spatio-temporelle

Les solutions récentes basées sur les transformateurs ont démontré un succès remarquable dans l’estimation de la posture 3D humaine. Toutefois, pour calculer la matrice d'affinité entre joints, le coût computationnel croît de manière quadratique avec l’augmentation du nombre de joints. Ce défaut s’aggrave particulièrement dans le cadre de l’estimation de posture dans une séquence vidéo, où il est nécessaire de modéliser des corrélations spatio-temporelles sur l’ensemble de la séquence. Dans cet article, nous abordons ce problème en décomposant l’apprentissage des corrélations en composantes spatiale et temporelle, et proposons un nouveau bloc d’attention croisée spatio-temporelle (STC). Techniquement, le bloc STC découpe d’abord ses caractéristiques d’entrée en deux partitions égales selon la dimension des canaux, puis applique séparément une attention spatiale et une attention temporelle à chacune des partitions. Ensuite, il modélise simultanément les interactions entre joints situés dans le même cadre et les joints situés sur la même trajectoire en concaténant les sorties des couches d’attention. Sur cette base, nous proposons STCFormer, en empilant plusieurs blocs STC, et intégrons une nouvelle embedding positionnel renforcé par la structure (SPE) dans STCFormer afin de prendre en compte la structure du corps humain. Cette fonction d’embedding se compose de deux composantes : une convolution spatio-temporelle autour des joints voisins pour capturer la structure locale, et un embedding conscient des parties pour indiquer à quelle partie du corps appartient chaque joint. Des expériences étendues ont été menées sur les benchmarks Human3.6M et MPI-INF-3DHP, et les résultats obtenus surpassent ceux des approches les plus avancées à ce jour. Plus remarquablement, STCFormer atteint la meilleure performance publiée à ce jour : une erreur P1 de 40,5 mm sur le difficile dataset Human3.6M.