Réseau Multi-Échelle Sensible à la Structure pour l'Estimation de la Posture Humaine

Nous développons un réseau neuronal robuste et sensible à la structure à plusieurs échelles pour l'estimation de la posture humaine. Cette méthode améliore les modèles récents d'heure-glace profonde (deep conv-deconv hourglass) par quatre innovations clés : (1) une supervision à plusieurs échelles pour renforcer l'apprentissage des caractéristiques contextuelles en combinant des cartes de chaleur de caractéristiques à travers différentes échelles, (2) un réseau de régression à plusieurs échelles à la fin pour optimiser globalement le couplage structurel des caractéristiques multi-échelles, (3) une perte structurée utilisée dans la supervision intermédiaire et lors de la régression pour améliorer le couplage des points clés et de leurs voisins respectifs afin d'inférer des configurations de couplage d'ordre supérieur, et (4) un schéma d'entraînement avec masquage de points clés qui peut efficacement affiner notre réseau pour localiser robustement les points clés occultés via des correspondances adjacentes. Notre méthode peut efficacement améliorer les méthodes d'estimation de posture les plus avancées actuellement disponibles, qui sont confrontées à des difficultés liées aux variations d'échelle, aux occultations et aux scénarios complexes impliquant plusieurs personnes. Cette supervision multi-échelle est étroitement intégrée au réseau de régression pour (i) localiser les points clés en utilisant l'ensemble des caractéristiques multi-échelles, et (ii) inférer la configuration globale de la posture en maximisant les cohérences structurelles entre plusieurs points clés et échelles. L'entraînement avec masquage de points clés renforce ces avantages en concentrant l'apprentissage sur les échantillons difficiles présentant des occultations. Notre méthode occupe une position prépondérante dans le classement du défi MPII parmi les méthodes les plus avancées actuellement disponibles.