Apprentissage structuré à marge maximale avec des réseaux profonds pour l'estimation de la posture humaine en 3D

Ce travail se concentre sur l'apprentissage de sorties structurées à l'aide de réseaux neuronaux profonds pour l'estimation de la posture humaine en 3D à partir d'images monoculaires. Notre réseau prend une image et une posture en 3D comme entrées et produit une valeur de score, qui est élevée lorsque le couple image-posture correspond et faible sinon. La structure du réseau comprend un réseau neuronal convolutif pour l'extraction des caractéristiques de l'image, suivi par deux sous-réseaux destinés à transformer les caractéristiques de l'image et la posture en un plongement conjoint. La fonction de score est ensuite le produit scalaire entre les plongements de l'image et de la posture. Le plongement image-posture et la fonction de score sont entraînés conjointement à l'aide d'une fonction coût à marge maximale. Notre cadre proposé peut être interprété comme une forme spéciale de machines à vecteurs de support structurées, où l'espace des caractéristiques conjointes est appris discriminativement à l'aide de réseaux neuronaux profonds. Nous testons notre cadre sur le jeu de données Human3.6M et obtenons des résultats d'état de l'art comparés aux autres méthodes récentes. Enfin, nous présentons des visualisations de l'espace de plongement image-posture, démontrant que le réseau a appris un plongement haut niveau de l'orientation corporelle et de la configuration posturale.