MuTr : Transformateur à Étapes Multiples pour l'Estimation de la Pose de la Main à Partir d'une Image de Profondeur de Scène Complète
Ce travail présente une nouvelle méthode fondée sur les transformateurs pour l'estimation de la posture de la main — DePOTR. Nous évaluons la méthode DePOTR sur quatre jeux de données standard, où elle surpasser d'autres méthodes basées sur les transformateurs tout en atteignant des performances comparables à celles des méthodes de pointe actuelles. Pour mieux illustrer la puissance de DePOTR, nous proposons une nouvelle approche en plusieurs étapes à partir d'images de profondeur à pleine scène — MuTr. Cette approche élimine la nécessité d'utiliser deux modèles distincts dans le pipeline d'estimation de posture de la main — un pour la localisation de la main et un autre pour l'estimation de la posture — tout en maintenant des résultats prometteurs. À notre connaissance, il s'agit du premier essai réussi visant à utiliser la même architecture de modèle aussi bien dans un cadre standard qu'en situation d'image à pleine scène, tout en obtenant des résultats compétitifs dans les deux cas. Sur le jeu de données NYU, DePOTR et MuTr atteignent respectivement une précision de 7,85 mm et 8,71 mm.