HyperAIHyperAI
il y a 2 mois

Exploitation des contextes temporels avec un Transformers à pas pour l'estimation de la pose humaine en 3D

Li, Wenhao ; Liu, Hong ; Ding, Runwei ; Liu, Mengyuan ; Wang, Pichao ; Yang, Wenming
Exploitation des contextes temporels avec un Transformers à pas pour l'estimation de la pose humaine en 3D
Résumé

Malgré les progrès considérables réalisés dans l'estimation de la posture humaine 3D à partir de vidéos, il reste un problème ouvert d'exploiter pleinement une séquence redondante de postures 2D pour apprendre des représentations représentatives permettant de générer une seule posture 3D. À cette fin, nous proposons une architecture améliorée basée sur le Transformer, appelée Strided Transformer, qui élève simplement et efficacement une longue séquence de positions articulaires 2D à une seule posture 3D. Plus précisément, un encodeur Transformer standard (Vanilla Transformer Encoder, VTE) est utilisé pour modéliser les dépendances à long terme des séquences de postures 2D. Pour réduire la redondance de la séquence, les couches entièrement connectées du réseau de propagation avant du VTE sont remplacées par des convolutions avec stride afin de réduire progressivement la longueur de la séquence et d'agréger les informations provenant des contextes locaux. L'encodeur VTE modifié est appelé Encodeur Strided Transformer (Strided Transformer Encoder, STE), qui s'appuie sur les sorties du VTE. Le STE non seulement agrège efficacement les informations à long terme en une représentation vectorielle unique selon une approche hiérarchique globale et locale, mais réduit également considérablement le coût de calcul. De plus, un schéma de supervision complet-à-simple est conçu à l'échelle des séquences complètes et des cadres cibles simples appliqués respectivement aux sorties du VTE et du STE. Ce schéma impose des contraintes supplémentaires de lissage temporel en conjonction avec la supervision du cadre cible simple, ce qui aide ainsi à produire des postures 3D plus fluides et précises. Le Strided Transformer proposé est évalué sur deux jeux de données基准数据集(benchmark datasets) difficiles, Human3.6M et HumanEva-I, et obtient des résultats d'état de l'art avec moins de paramètres. Le code source et les modèles sont disponibles à l'adresse \url{https://github.com/Vegetebird/StridedTransformer-Pose3D}. 注:在“deux jeux de données基准数据集”中,“基准数据集”为中文,应根据上下文理解为“基准数据集”或“参考数据集”。此处翻译为“deux jeux de données benchmark”,以保持专业性和信息完整性。

Exploitation des contextes temporels avec un Transformers à pas pour l'estimation de la pose humaine en 3D | Articles de recherche récents | HyperAI