Génération de multiples hypothèses pour l'estimation de la pose humaine en 3D avec un réseau de densité mixte

L'estimation de la posture humaine en 3D à partir d'une image monoculaire ou de joints 2D est un problème mal posé en raison de l'ambiguïté de profondeur et des joints occultés. Nous soutenons que l'estimation de la posture humaine en 3D à partir d'une entrée monoculaire est un problème inverse où plusieurs solutions plausibles peuvent exister. Dans cet article, nous proposons une nouvelle approche pour générer plusieurs hypothèses plausibles de la posture en 3D à partir de joints 2D. Contrairement aux approches actuelles basées sur l'apprentissage profond qui minimisent une erreur quadratique moyenne basée sur une distribution gaussienne unimodale, notre méthode est capable de générer plusieurs hypothèses plausibles de la posture en 3D à partir d'un réseau de densité mixte multimodal (multimodal mixture density networks). Nos expériences montrent que les postures en 3D estimées par notre approche à partir d'une entrée de joints 2D sont cohérentes dans les réprojections 2D, ce qui soutient notre argument selon lequel plusieurs solutions existent pour le problème inverse 2D-3D. De plus, nous montrons des performances au niveau de l'état de l'art sur le jeu de données Human3.6M, tant dans les configurations du meilleur scénario que dans les configurations multivues, et nous démontrons la capacité de généralisation de notre modèle en effectuant des tests sur les jeux de données MPII et MPI-INF-3DHP. Notre code est disponible sur le site web du projet.