DeepFuse : Un réseau conscient des IMU pour l'estimation en temps réel de la posture 3D humaine à partir d'images multi-vues

Dans cet article, nous proposons un réseau entièrement 3D en deux étapes, nommé \textbf{DeepFuse}, pour estimer la posture humaine dans l’espace 3D en fusionnant profondément les données provenant d’unités de mesure inertielle (IMU) portées par le corps et des images issues de multiples vues. La première étape est conçue pour une estimation purement visuelle. Afin de préserver la primalité des données d’entrée multi-vues, l’étape visuelle utilise un volume à plusieurs canaux comme représentation des données et une couche d’activation 3D soft-argmax. La deuxième étape, quant à elle, correspond à une phase d’affinement par IMU, qui introduit une couche IMU-osseuse pour fusionner les données IMU et visuelles plus tôt, au niveau des données. Sans nécessiter de modèle squelettique prédéfini, nous atteignons une erreur moyenne par joint de $28,9$ mm sur le jeu de données TotalCapture et de $13,4$ mm sur le jeu de données Human3.6M selon le protocole 1, surpassant ainsi significativement les résultats de l’état de l’art. Enfin, nous discutons expérimentalement l’efficacité d’un réseau entièrement 3D pour l’estimation de posture 3D, ce qui pourrait bénéficier aux recherches futures.