Apprentissage de pyramides de caractéristiques pour l'estimation de la posture humaine

L'estimation de la posture humaine articulée est une tâche fondamentale mais difficile en vision par ordinateur. La difficulté est particulièrement marquée lors des variations d'échelle des parties du corps humain en cas de changement de vue caméra ou de fort raccourcissement. Bien que les méthodes pyramidales soient largement utilisées pour gérer les changements d'échelle au moment de l'inférence, l'apprentissage de pyramides de caractéristiques dans les réseaux neuronaux convolutifs profonds (RNCP) n'est pas encore bien exploré. Dans ce travail, nous concevons un module résiduel pyramidal (PRM) pour améliorer l'invariance d'échelle des RNCP. Étant donné des caractéristiques d'entrée, le PRM apprend des filtres convolutifs sur différentes échelles de ces caractéristiques, qui sont obtenues avec différents rapports de sous-échantillonnage dans un réseau à plusieurs branches. De plus, nous constatons qu'il est inapproprié d'utiliser les méthodes existantes pour initialiser les poids des réseaux à plusieurs branches, qui ont récemment obtenu des performances supérieures aux réseaux simples dans de nombreuses tâches. Par conséquent, nous fournissons une dérivation théorique pour étendre le schéma actuel d'initialisation des poids aux structures de réseaux à plusieurs branches. Nous évaluons notre méthode sur deux benchmarks standards pour l'estimation de la posture humaine. Notre approche obtient des résultats d'état de l'art sur les deux benchmarks. Le code est disponible à l'adresse https://github.com/bearpaw/PyraNet.