Une Base de Ligne Simple pour une Reconstruction Efficace du Maillage de la Main

L'estimation de la pose de la main en 3D trouve une large application dans des domaines tels que la reconnaissance des gestes et les tâches d'interaction homme-machine. Alors que les performances s'améliorent, la complexité des systèmes augmente également, ce qui peut limiter l'analyse comparative et la mise en œuvre pratique de ces méthodes. Dans cet article, nous proposons une ligne de base simple mais efficace qui non seulement surpasse les méthodes de pointe (SOTA) actuelles, mais démontre également une efficacité computationnelle. Pour établir cette ligne de base, nous abstrayons les travaux existants en deux composantes : un générateur de tokens et un régresseur de maillage, puis nous examinons leurs structures fondamentales. Une structure fondamentale, dans ce contexte, est celle qui remplit des fonctions intrinsèques, apporte des améliorations significatives et atteint d'excellentes performances sans complexités superflues. Notre approche proposée est indépendante de toute modification du backbone, ce qui la rend adaptable à tout modèle moderne. Notre méthode surpasse les solutions existantes, obtenant des résultats de pointe (SOTA) sur plusieurs jeux de données. Sur le jeu de données FreiHAND, notre approche a produit un PA-MPJPE de 5,7 mm et un PA-MPVPE de 6,0 mm. De manière similaire, sur le jeu de données Dexycb, nous avons observé un PA-MPJPE de 5,5 mm et un PA-MPVPE de 5,0 mm. En ce qui concerne la vitesse d'exécution, notre méthode a atteint jusqu'à 33 images par seconde (ips) avec HRNet et jusqu'à 70 ips avec FastViT-MA36.