Apprentissage de représentations à haute résolution pour la reconnaissance visuelle

Les représentations à haute résolution sont essentielles pour les problèmes de vision par ordinateur sensibles à la position, tels que l'estimation de la posture humaine, la segmentation sémantique et la détection d'objets. Les cadres existants de pointe encodent d'abord l'image d'entrée sous forme de représentation à basse résolution grâce à un sous-réseau formé par la connexion en série de convolutions allant d'une haute à une basse résolution (par exemple, ResNet, VGGNet), puis ils récupèrent la représentation à haute résolution à partir de cette représentation codée. En revanche, notre réseau proposé, nommé High-Resolution Network (HRNet), maintient des représentations à haute résolution tout au long du processus. Ce réseau présente deux caractéristiques clés : (i) connecter les flux de convolutions allant d'une haute à une basse résolution en parallèle ; (ii) échanger répétitivement les informations entre les différentes résolutions. L'avantage est que la représentation résultante est plus riche sémantiquement et plus précise spatialement. Nous démontrons la supériorité du HRNet proposée dans une large gamme d'applications, notamment l'estimation de la posture humaine, la segmentation sémantique et la détection d'objets, ce qui suggère que le HRNet constitue un squelette plus robuste pour les problèmes de vision par ordinateur. Tous les codes sources sont disponibles sur~{\url{https://github.com/HRNet}}.