I2L-MeshNet : Réseau de prédiction Image-to-Lixel pour une estimation précise de la posture 3D et du maillage humain à partir d'une seule image RGB

La plupart des méthodes précédentes de estimation de la posture 3D humaine et de maillage à partir d’images estiment les paramètres du modèle de maillage humain à partir d’une image d’entrée. Toutefois, la régression directe des paramètres à partir de l’image d’entrée constitue une application fortement non linéaire, car elle rompt la relation spatiale entre les pixels de l’image d’entrée. En outre, cette approche ne permet pas de modéliser l’incertitude de prédiction, ce qui peut rendre l’apprentissage plus difficile. Pour résoudre ces problèmes, nous proposons I2L-MeshNet, un réseau de prédiction image-to-lixel (ligne+pixel). Contrairement à la régression directe des paramètres, I2L-MeshNet prédit la probabilité par lixel sur des cartes de chaleur unidimensionnelles pour chaque coordonnée des sommets du maillage. Cette approche basée sur les lixels préserve la relation spatiale présente dans l’image d’entrée et permet de modéliser l’incertitude de prédiction. Nous démontrons les avantages de la prédiction image-to-lixel et montrons que I2L-MeshNet surpasser les méthodes antérieures. Le code est disponible publiquement à l’adresse suivante : https://github.com/mks0601/I2L-MeshNet_RELEASE.