Vers une estimation rapide et précise de la posture humaine grâce à des connexions sautantes à gating doux

Ce papier traite de l'estimation de posture humaine à la fois très précise et très efficace. Les travaux récents fondés sur les réseaux de convolution entière (Fully Convolutional Networks, FCNs) ont démontré des résultats remarquables pour ce problème difficile. Bien que les connexions résiduelles au sein des FCNs se soient révélées essentielles pour atteindre une haute précision, nous réexaminons ce choix architectural dans le contexte d'une amélioration simultanée de la précision et de l'efficacité par rapport aux états de l'art. Plus précisément, nous apportons les contributions suivantes : (a) Nous proposons des connexions skip à grille (gated skip connections) dotées de paramètres apprenables par canal, permettant de contrôler le flux de données pour chaque canal à l’intérieur du module au sein du macro-module. (b) Nous introduisons un réseau hybride combinant les architectures HourGlass et U-Net, qui réduit le nombre de connexions d’identité dans le réseau tout en augmentant la performance pour un budget de paramètres donné. Notre modèle atteint des résultats de pointe sur les jeux de données MPII et LSP. En outre, avec une réduction de 3 fois en taille et en complexité du modèle, nous montrons qu’aucune dégradation de performance n’est observée par rapport au réseau HourGlass original.