HyperAIHyperAI
il y a 13 jours

Transformateur de compression-et-amplification pyramidal temporel raffiné pour l'estimation de la posture 3D humaine

Hanbing Liu, Wangmeng Xiang, Jun-Yan He, Zhi-Qi Cheng, Bin Luo, Yifeng Geng, Xuansong Xie
Transformateur de compression-et-amplification pyramidal temporel raffiné pour l'estimation de la posture 3D humaine
Résumé

Estimer avec précision la pose 3D des êtres humains dans des séquences vidéo exige à la fois une grande précision et une architecture bien structurée. À la suite du succès des transformateurs, nous introduisons le modèle RTPCA (Refined Temporal Pyramidal Compression-and-Amplification), un transformateur conçu spécifiquement pour ce défi. En exploitant la dimension temporelle, RTPCA étend la modélisation temporelle intra-bloc grâce à sa structure pyramidale temporelle de compression-et-amplification (TPCA), tout en affinant les interactions entre blocs grâce à un module de révision croisant les couches (XLR). Plus précisément, le bloc TPCA repose sur un paradigme pyramidal temporel, renforçant ainsi les capacités de représentation des clés et des valeurs, et permettant une extraction fluide des sémantiques spatiales à partir des séquences de mouvement. Ces blocs TPCA sont assemblés via le module XLR, qui favorise une représentation sémantique riche grâce à une interaction continue entre les requêtes, les clés et les valeurs. Cette stratégie intègre efficacement les informations précoces dans les flux actuels, remédiant aux déficiences classiques en termes de détail et de stabilité observées dans d'autres méthodes basées sur les transformateurs. Nous démontrons l'efficacité de RTPCA en obtenant des résultats de pointe sur les benchmarks Human3.6M, HumanEva-I et MPI-INF-3DHP, avec un surcroît de calcul minimal. Le code source est disponible à l'adresse suivante : https://github.com/hbing-l/RTPCA.

Transformateur de compression-et-amplification pyramidal temporel raffiné pour l'estimation de la posture 3D humaine | Articles de recherche récents | HyperAI