CLIFF : Intégration des Informations de Localisation dans les Trames Complètes pour l'Estimation de la Posture et de la Forme Humaine

Les méthodes top-down dominent le domaine de l'estimation de la posture et de la forme humaine en 3D, car elles sont décorrélées de la détection des personnes et permettent aux chercheurs de se concentrer sur le problème central. Cependant, l'étape initiale de recadrage élimine les informations de localisation dès le début, ce qui rend ces méthodes incapables de prédire avec précision la rotation globale dans le système de coordonnées d'origine de la caméra. Pour résoudre ce problème, nous proposons d'intégrer les Informations de Localisation dans les Images Complètes (CLIFF) à cette tâche. Plus précisément, nous alimentons CLIFF avec des caractéristiques plus holistiques en concaténant les caractéristiques d'image recadrée avec leurs informations de boîte englobante. Nous calculons la perte de reprojection 2D en prenant une vue plus large du cadre complet, en utilisant un processus de projection similaire à celui d'une personne projetée dans l'image. Grâce aux informations globales et conscientes de la localisation, CLIFF prédit directement la rotation globale ainsi que des postures articulées plus précises. De plus, nous proposons un annotateur pseudo-vérité-terrain basé sur CLIFF, qui fournit des annotations 3D de haute qualité pour les jeux de données 2D in-the-wild et offre une supervision complète cruciale pour les méthodes basées sur la régression. Des expériences approfondies sur des benchmarks populaires montrent que CLIFF surpassent nettement les travaux antérieurs et occupe la première place du classement AGORA (piste SMPL-Algorithms). Le code source et les données sont disponibles à l'adresse suivante : https://github.com/huawei-noah/noah-research/tree/master/CLIFF.