Les métriques d'estimation de la posture 3D humaine multi-hypothèses favorisent les distributions mal calibrées.

En raison des ambiguïtés de profondeur et des occultations, le relèvement des poses 2D en 3D est un problème fortement mal posé. Des distributions bien calibrées des poses possibles peuvent rendre ces ambiguïtés explicites et préserver l'incertitude résultante pour les tâches en aval. Cette étude montre que les tentatives précédentes, qui prennent en compte ces ambiguïtés par la génération de multiples hypothèses, produisent des distributions mal calibrées. Nous identifions que cette miscalibration peut être attribuée à l'utilisation de métriques basées sur des échantillons, telles que minMPJPE (Minimum Mean Per Joint Position Error). Dans une série de simulations, nous démontrons que la minimisation de minMPJPE, comme c'est couramment fait, devrait converger vers la prédiction moyenne correcte. Cependant, elle échoue à capturer correctement l'incertitude, ce qui entraîne une distribution mal calibrée. Pour atténuer ce problème, nous proposons un modèle précis et bien calibré appelé Conditional Graph Normalizing Flow (cGNFs) (Flot Normalisant Conditionnel de Graphe). Notre modèle est structuré de manière à ce qu'un seul cGNF puisse estimer à la fois les densités conditionnelles et marginales au sein du même modèle – résolvant ainsi efficacement un problème d'estimation de densité sans supervision préalable (zero-shot). Nous évaluons cGNF sur le dataset Human~3.6M et montrons que cGNF fournit une estimation de distribution bien calibrée tout en se rapprochant des meilleures performances actuelles en termes de minMPJPE global. De plus, cGNF surpasse les méthodes précédentes pour les articulations occultées tout en restant bien calibré.