Estimation de la posture humaine 3D auto-supervisée avec géométrie multi-vue

Nous présentons un algorithme d'apprentissage auto-supervisé pour l'estimation de la posture 3D d'une seule personne basé sur un système multicaméra et des estimations de posture corporelle 2D pour chaque vue. Pour entraîner notre modèle, représenté par un réseau neuronal profond, nous proposons un algorithme d'apprentissage utilisant une fonction de perte à quatre termes, qui ne nécessite aucune vérité terrain en 2D ou 3D de la posture corporelle. Les fonctions de perte proposées exploitent la géométrie multicaméra pour reconstruire les estimations de posture corporelle 3D et imposent des contraintes de posture corporelle entre les vues des caméras. Notre approche utilise toutes les vues disponibles des caméras pendant l'entraînement, tandis que l'inférence se fait à partir d'une seule vue. Dans nos évaluations, nous montrons des performances prometteuses sur les benchmarks Human3.6M et HumanEva, tout en présentant une étude de généralisation sur le dataset MPI-INF-3DHP ainsi que plusieurs résultats d'ablation. Dans l'ensemble, nous surpassons toutes les méthodes d'apprentissage auto-supervisé et obtenons des résultats comparables aux approches supervisées et faiblement supervisées. Notre code et nos modèles sont librement accessibles au public.Note: - "Human3.6M" and "HumanEva" are kept in their original form as they are specific dataset names.- "MPI-INF-3DHP" is also kept in its original form as it is a well-known dataset name in the field.- "Ablation results" is translated as "résultats d'ablation," which is a common term used in machine learning research to describe the process of removing or altering parts of a model to assess their impact.