HuManiFlow : Flots normalisés conditionnés aux ancêtres sur les variétés SO(3) pour l'estimation de la distribution des poses et formes humaines

L'estimation monulaire de la posture et de la forme humaines en 3D est un problème mal posé, car plusieurs solutions 3D peuvent expliquer une image 2D d'un sujet. Les approches récentes prévoient une distribution de probabilité sur les paramètres plausibles de la posture et de la forme en 3D, conditionnée par l'image. Nous démontrons que ces approches présentent un compromis entre trois propriétés clés : (i) précision - la probabilité de la solution 3D vérité-terrain sous la distribution prédite, (ii) cohérence échantillon-entrée - le degré auquel les échantillons 3D issus de la distribution prédite correspondent aux preuves visibles dans l'image 2D, et (iii) diversité des échantillons - l'étendue des solutions 3D plausibles modélisées par la distribution prédite. Notre méthode, HuManiFlow, prédit simultanément des distributions précises, cohérentes et diversifiées. Nous utilisons l'arbre cinématique humain pour factoriser la posture du corps entier en distributions de postures par partie corporelle conditionnées par leurs ancêtres, de manière autorégressive. Les distributions par partie corporelle sont mises en œuvre à l'aide de flux normalisants qui respectent la structure de variété de SO(3), le groupe de Lie des postures par partie corporelle. Nous montrons que les pertes d'estimation ponctuelle 3D, bien qu'elles soient mal posées mais courantes, réduisent la diversité des échantillons, et nous n'utilisons que des pertes d'entraînement probabilistes. Le code est disponible à l'adresse suivante : https://github.com/akashsengupta1997/HuManiFlow.