HyperAIHyperAI
il y a 8 jours

XFormer : Captage 3D monocular rapide et précis du corps humain

Lihui Qian, Xintong Han, Faqiang Wang, Hongyu Liu, Haoye Dong, Zhiwen Li, Huawei Wei, Zhe Lin, Cheng-Bin Jin
XFormer : Captage 3D monocular rapide et précis du corps humain
Résumé

Nous présentons XFormer, une nouvelle méthode de capture de maillage et de mouvement humains qui atteint des performances en temps réel sur des processeurs grand public à partir uniquement d’images monoculaires en entrée. L’architecture réseau proposée comporte deux branches : une branche de points clés qui estime les sommets du maillage humain 3D à partir de points clés 2D, et une branche d’image qui effectue des prédictions directement à partir des caractéristiques d’image RGB. Au cœur de notre méthode se trouve un bloc transformer intermodal qui permet un échange d’informations entre ces deux branches en modélisant l’attention entre les coordonnées 2D des points clés et les caractéristiques spatiales d’image. L’architecture est intelligemment conçue, permettant ainsi d’entraîner le modèle sur divers types de jeux de données, y compris des images annotées 2D/3D, des images avec des étiquettes pseudo-3D, et des jeux de données de motion capture ne comportant pas d’images associées. Cela améliore efficacement la précision et la capacité de généralisation de notre système. Basé sur un squelette léger (MobileNetV3), notre méthode fonctionne extrêmement rapidement (plus de 30 fps sur un seul cœur de processeur) tout en maintenant une précision compétitive. En outre, avec un squelette HRNet, XFormer atteint des performances de pointe sur les jeux de données Human3.6 et 3DPW.