HyperAIHyperAI

Command Palette

Search for a command to run...

Estimation de la posture 3D humaine avec une attention croisée spatio-temporelle

Ting Yao Richang Hong Yanbin Hao Zhaofan Qiu Zhenhua Tang

Résumé

Les solutions récentes basées sur les transformateurs ont démontré un succès remarquable dans l’estimation de la posture 3D humaine. Toutefois, pour calculer la matrice d'affinité entre joints, le coût computationnel croît de manière quadratique avec l’augmentation du nombre de joints. Ce défaut s’aggrave particulièrement dans le cadre de l’estimation de posture dans une séquence vidéo, où il est nécessaire de modéliser des corrélations spatio-temporelles sur l’ensemble de la séquence. Dans cet article, nous abordons ce problème en décomposant l’apprentissage des corrélations en composantes spatiale et temporelle, et proposons un nouveau bloc d’attention croisée spatio-temporelle (STC). Techniquement, le bloc STC découpe d’abord ses caractéristiques d’entrée en deux partitions égales selon la dimension des canaux, puis applique séparément une attention spatiale et une attention temporelle à chacune des partitions. Ensuite, il modélise simultanément les interactions entre joints situés dans le même cadre et les joints situés sur la même trajectoire en concaténant les sorties des couches d’attention. Sur cette base, nous proposons STCFormer, en empilant plusieurs blocs STC, et intégrons une nouvelle embedding positionnel renforcé par la structure (SPE) dans STCFormer afin de prendre en compte la structure du corps humain. Cette fonction d’embedding se compose de deux composantes : une convolution spatio-temporelle autour des joints voisins pour capturer la structure locale, et un embedding conscient des parties pour indiquer à quelle partie du corps appartient chaque joint. Des expériences étendues ont été menées sur les benchmarks Human3.6M et MPI-INF-3DHP, et les résultats obtenus surpassent ceux des approches les plus avancées à ce jour. Plus remarquablement, STCFormer atteint la meilleure performance publiée à ce jour : une erreur P1 de 40,5 mm sur le difficile dataset Human3.6M.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp