LInKs « Lifting Independent Keypoints » -- Relèvement partiel de la pose pour la gestion des occultations avec une précision améliorée dans l'estimation de la pose humaine 2D-3D

Nous présentons LInKs, une nouvelle méthode d'apprentissage non supervisé permettant de reconstruire des poses humaines en 3D à partir de squelettes cinématiques en 2D obtenus à partir d'une seule image, même en présence d'occlusions. Notre approche suit un processus unique en deux étapes, qui consiste d'abord à élever la pose 2D occluse dans le domaine 3D, puis à combler les parties occluses en utilisant les coordonnées 3D partiellement reconstruites. Cette approche « élever puis combler » conduit à des résultats nettement plus précis par rapport aux modèles qui complètent la pose uniquement dans l'espace 2D. De plus, nous améliorons la stabilité et l'estimation de probabilité des flux normalisants grâce à une fonction d'échantillonnage personnalisée remplaçant la réduction de dimensionnalité par ACP (PCA) utilisée précédemment dans les travaux antérieurs. Nous sommes également les premiers à examiner si différentes parties du squelette cinématique en 2D peuvent être élevées indépendamment, ce que nous trouvons réduire par elle-même l'erreur des approches actuelles de relevage. Nous attribuons cela à la réduction des corrélations entre points clés sur de longues distances. Dans notre évaluation détaillée, nous quantifions l'erreur sous divers scénarios d'occlusion réalistes, mettant ainsi en lumière la polyvalence et l'applicabilité de notre modèle. Nos résultats montrent constamment la supériorité de notre méthode pour traiter tous types d'occlusions dans l'espace 3D par rapport aux autres méthodes qui complètent la pose dans l'espace 2D. Notre approche présente également une précision constante dans les scénarios sans occlusion, comme le montre une réduction de 7,9 % de l'erreur de reconstruction par rapport aux travaux antérieurs sur le jeu de données Human3.6M. En outre, notre méthode se distingue par sa capacité à récupérer avec précision des poses complètes en 3D même en présence d'occlusions, ce qui la rend particulièrement adaptée aux situations où les informations sur la pose complète en 2D ne sont pas disponibles.