PoseFormerV2 : Exploration du domaine fréquentiel pour une estimation de la posture humaine 3D efficace et robuste

Récemment, les méthodes basées sur les transformateurs ont connu un succès notable dans l'estimation de la pose humaine 2D vers 3D séquentielle. En tant qu'œuvre pionnière, PoseFormer capture les relations spatiales des articulations humaines dans chaque image vidéo et les dynamiques humaines entre les images grâce à des couches de transformateurs en cascade, obtenant ainsi des performances impressionnantes. Cependant, dans des scénarios réels, les performances de PoseFormer et de ses dérivés sont limitées par deux facteurs : (a) La longueur de la séquence d'articulations en entrée ; (b) La qualité de la détection des articulations 2D. Les méthodes existantes appliquent généralement l'auto-attention à toutes les images de la séquence en entrée, ce qui entraîne une charge de calcul importante lorsque le nombre d'images est augmenté pour obtenir une précision d'estimation supérieure, et elles ne sont pas robustes aux bruits naturellement introduits par les capacités limitées des détecteurs d'articulations 2D. Dans cet article, nous proposons PoseFormerV2, qui utilise une représentation compacte des séquences squelettiques longues dans le domaine fréquentiel pour élargir efficacement le champ récepteur et améliorer la robustesse face à la détection bruyante des articulations 2D. Avec des modifications minimales apportées à PoseFormer, la méthode proposée fusionne efficacement les caractéristiques dans le domaine temporel et le domaine fréquentiel, offrant un meilleur compromis vitesse-précision que son prédécesseur. Des expériences approfondies sur deux jeux de données de référence (à savoir Human3.6M et MPI-INF-3DHP) montrent que l'approche proposée surpasse significativement l'original PoseFormer et d'autres variantes basées sur les transformateurs. Le code est disponible à l'adresse \url{https://github.com/QitaoZhao/PoseFormerV2}.