Architecture Multitâche Profonde pour la Détection Intégrée 2D et 3D des Humains

Nous proposons une architecture profonde multitâche pour la \emph{sensation humaine automatique complète en 2D et 3D} (DMHS), incluant \emph{l'identification et la reconstruction}, dans des \emph{images monoculaires}. Le système calcule la segmentation figure-fond, identifie sémantiquement les parties du corps humain au niveau des pixels, et estime la posture 2D et 3D de la personne. Le modèle prend en charge l'entraînement conjoint de tous les composants grâce à des pertes multitâches où les étapes de traitement initiales alimentent récursivement des étapes plus avancées pour des calculs de plus en plus complexes, ainsi que pour améliorer la précision et la robustesse. La conception nous permet d'établir un protocole d'entraînement complet en tirant parti de plusieurs jeux de données qui, autrement, couvriraient restrictivement seulement certains composants du modèle : des données d'images 2D complexes sans étiquetage des parties du corps et sans vérité terrain associée 3D, ou des données 3D complexes avec une variabilité limitée du fond en 2D. Dans des expériences détaillées basées sur plusieurs jeux de données 2D et 3D difficiles (LSP, HumanEva, Human3.6M), nous évaluons les sous-structures du modèle, l'effet de différents types de données d'entraînement dans la perte multitâche, et démontrons qu'il est possible d'obtenir des résultats à l'état de l'art à tous les niveaux de traitement. Nous montrons également que notre architecture RGB monoculaire est compétitive au niveau perceptuel par rapport à un système Kinect basé sur des données RGB-D.注释:- "sensation humaine automatique complète en 2D et 3D" 是对“fully automatic 2d and 3d human sensing”的翻译,虽然这个术语在法语中并不常见,但为了保持专业性和准确性,这里直接翻译并保留了原意。- “figure-fond” 是“figure-ground” 的通用法语译法。- “vérité terrain” 是“ground truth” 的通用法语译法。- “état de l’art” 是“state-of-the-art” 的通用法语译法。