Estimation de la posture humaine 3D avec des transformateurs spatiaux et temporels

Les architectures de transformers sont devenues le modèle privilégié dans le traitement du langage naturel et sont maintenant introduites dans des tâches de vision par ordinateur telles que la classification d'images, la détection d'objets et la segmentation sémantique. Cependant, dans le domaine de l'estimation de la posture humaine, les architectures convolutives restent dominantes. Dans ce travail, nous présentons PoseFormer, une approche entièrement basée sur les transformers pour l'estimation de la posture humaine en 3D dans des vidéos, sans recours aux architectures convolutives. Inspirés par les récentes avancées dans les transformers visuels, nous avons conçu une structure de transformer spatio-temporelle pour modéliser de manière exhaustive les relations entre les articulations humaines au sein de chaque image ainsi que les corrélations temporelles entre les images, avant de produire une estimation précise de la posture humaine en 3D pour l'image centrale. Nous évaluons notre méthode quantitativement et qualitativement sur deux jeux de données基准数据集(benchmark datasets) populaires et standardisés : Human3.6M et MPI-INF-3DHP. De nombreuses expériences montrent que PoseFormer atteint des performances à l'état de l'art sur ces deux jeux de données. Le code est disponible à l'adresse \url{https://github.com/zczcwh/PoseFormer}.注:在“jeux de données”后面,我保留了“基准数据集”并加上了括号标注“benchmark datasets”,以确保信息的完整性。在正式的法语文献中,通常会使用“jeux de données”来指代“benchmark datasets”。