VirtualPose : Apprendre des modèles de pose 3D humaine généralisables à partir de données virtuelles

Bien que l'estimation de la posture 3D monoculaire semble avoir obtenu des résultats très précis sur les ensembles de données publics, leurs capacités de généralisation sont largement négligées. Dans ce travail, nous effectuons une évaluation systématique des méthodes existantes et constatons qu'elles présentent des erreurs notablement plus importantes lorsqu'elles sont testées sur différentes caméras, postures humaines et apparences. Pour résoudre ce problème, nous introduisons VirtualPose, un cadre d'apprentissage en deux étapes visant à exploiter le « repas gratuit » caché spécifique à cette tâche, c'est-à-dire la génération d'un nombre infini de postures et de caméras pour entraîner les modèles sans coût. À cet effet, la première étape transforme les images en représentations géométriques abstraites (AGR), puis la deuxième étape les mappe en postures 3D. Ce cadre aborde le problème de généralisation sous deux angles : (1) la première étape peut être entraînée sur des ensembles de données 2D variés pour réduire le risque de surajustement à des apparences limitées ; (2) la deuxième étape peut être entraînée sur des AGR diversifiées synthétisées à partir d'un grand nombre de caméras virtuelles et de postures. Il surpasse les méthodes SOTA (State Of The Art) sans utiliser aucune image appariée ni posture 3D provenant des benchmarks, ouvrant ainsi la voie à des applications pratiques. Le code est disponible sur https://github.com/wkom/VirtualPose.