Cartes thermiques volumétriques compressées pour l'estimation de posture 3D multi-personnes

Dans cet article, nous présentons une nouvelle approche pour l’estimation 3D du geste humain à plusieurs personnes à partir d’images monoculaires en RGB, suivant une approche ascendante (bottom-up). Nous proposons d’utiliser des cartes de chaleur volumétriques à haute résolution pour modéliser les positions des articulations, en introduisant une méthode simple et efficace de compression permettant de réduire de manière drastique la taille de cette représentation. Au cœur de la méthode proposée se trouve notre Autoencodeur de Cartes de Chaleur Volumétriques, un réseau entièrement convolutif chargé de compresser les cartes de chaleur d’annotation (ground-truth) en une représentation intermédiaire dense. Un second modèle, appelé Code Predictor, est ensuite entraîné pour prédire ces codes, qui peuvent être décompressés au moment de l’évaluation afin de reconstruire la représentation initiale. Nos expérimentations montrent que notre méthode se distingue favorablement par rapport aux états de l’art sur les jeux de données d’estimation 3D du geste humain, qu’il s’agisse de scènes à une seule personne ou à plusieurs personnes. Grâce à notre stratégie novatrice de compression, notre approche traite des images en résolution Full-HD à un débit constant de 8 images par seconde, indépendamment du nombre de sujets présents dans la scène. Le code source et les modèles sont disponibles à l’adresse suivante : https://github.com/fabbrimatteo/LoCO.