Estimation probabiliste de la posture 3D humaine monoculaire avec des flux normalisants

L'estimation de la posture humaine en 3D à partir d'images monoculaires est un problème fortement mal posé en raison des ambiguïtés de profondeur et des occultations. Néanmoins, la plupart des travaux existants ignorent ces ambiguïtés et ne proposent qu'une seule solution. En revanche, nous générons un ensemble diversifié d'hypothèses qui représente la distribution postérieure complète des postures 3D possibles. Pour ce faire, nous proposons une méthode basée sur les flux normalisants (normalizing flow) qui exploite l'application déterministe de 3D à 2D pour résoudre le problème inverse ambigu de 2D à 3D. De plus, les détections incertaines et les occultations sont modélisées efficacement en intégrant les informations d'incertitude du détecteur 2D comme condition. D'autres clés du succès incluent un a priori de posture 3D appris et une généralisation de la perte best-of-M. Nous évaluons notre approche sur deux jeux de données de référence, Human3.6M et MPI-INF-3DHP, surpassant toutes les méthodes comparables dans la plupart des métriques. L'implémentation est disponible sur GitHub.