HyperAIHyperAI
il y a 8 jours

Reconstruction 3D des mains avec des Transformers

Georgios Pavlakos, Dandan Shan, Ilija Radosavovic, Angjoo Kanazawa, David Fouhey, Jitendra Malik
Reconstruction 3D des mains avec des Transformers
Résumé

Nous présentons une approche permettant de reconstruire les mains en 3D à partir d'une entrée monoscopique. Notre méthode, dénommée HaMeR (Hand Mesh Recovery), repose sur une architecture entièrement fondée sur les transformateurs et permet une analyse des mains avec une précision et une robustesse nettement accrues par rapport aux travaux antérieurs. Le succès clé de HaMeR réside dans l'augmentation à la fois de la quantité de données utilisées pour l'entraînement et de la capacité du réseau profond dédié à la reconstruction des mains. En ce qui concerne les données d'entraînement, nous combinons plusieurs jeux de données contenant des annotations 2D ou 3D des mains. Pour le modèle profond, nous utilisons une architecture Vision Transformer à grande échelle. Notre modèle final dépasse de manière cohérente les meilleures méthodes antérieures sur des benchmarks populaires de pose 3D des mains. Afin d'évaluer davantage l'impact de notre conception dans des conditions non contrôlées, nous annotons des jeux de données existants en situation réelle (in-the-wild) avec des annotations de points-clés 2D des mains. Sur ce nouveau jeu d'annotations, baptisé HInt, nous démontrons des améliorations significatives par rapport aux méthodes existantes. Nous mettons à disposition notre code, nos données et nos modèles sur le site du projet : https://geopavlakos.github.io/hamer/.