WiLoR : Localisation et reconstruction 3D de la main en conditions réelles
Ces dernières années, les méthodes d'estimation de la posture de la main en 3D ont suscité une attention considérable en raison de leurs nombreuses applications dans l'interaction homme-machine, la réalité virtuelle et la robotique. En revanche, il existe un écart notable dans les pipelines de détection des mains, ce qui pose des défis importants pour la construction de systèmes efficaces de reconstruction multi-mains dans le monde réel. Dans cette étude, nous présentons un pipeline basé sur les données pour une reconstruction multi-mains efficace dans des conditions variées (« in the wild »). Le pipeline proposé se compose de deux composants : une localisation en temps réel des mains par un réseau entièrement convolutionnel et un modèle de reconstruction 3D des mains à haute fidélité basé sur les transformers. Pour surmonter les limites des méthodes précédentes et construire un réseau de détection robuste et stable, nous introduisons un jeu de données à grande échelle comprenant plus de 2 millions d'images de mains prises dans des conditions variées, avec diverses conditions d'éclairage, d'illumination et d'occlusion. Notre approche surpassent les méthodes antérieures tant en termes d'efficacité que de précision sur des benchmarks populaires en 2D et 3D. Enfin, nous démontrons l'efficacité de notre pipeline pour réaliser un suivi fluide des mains en 3D à partir de vidéos monoculaires, sans utiliser aucune composante temporelle. Le code source, les modèles et le jeu de données sont disponibles à l'adresse suivante : https://rolpotamias.github.io/WiLoR.