Réseaux Neuronaux Pleinement Convolutifs pour la Segmentation Sémantique

Les réseaux de convolution sont des modèles visuels puissants qui produisent des hiérarchies de caractéristiques. Nous démontrons que les réseaux de convolution seuls, formés de bout en bout, pixel à pixel, surpassent l'état de l'art en segmentation sémantique. Notre principale intuition est de construire des réseaux « entièrement convolutifs » qui acceptent une entrée de taille arbitraire et produisent une sortie de taille correspondante avec une inférence et un apprentissage efficaces. Nous définissons et détaillons l'espace des réseaux entièrement convolutifs, expliquons leur application aux tâches de prédiction spatialement dense, et établissons des liens avec les modèles antérieurs. Nous adaptons des réseaux de classification contemporains (AlexNet, le réseau VGG et GoogLeNet) en réseaux entièrement convolutifs et transférons leurs représentations apprises par un ajustement fin (fine-tuning) à la tâche de segmentation. Nous définissons ensuite une nouvelle architecture qui combine les informations sémantiques d'une couche profonde et grossière avec les informations d'apparence d'une couche superficielle et fine pour produire des segmentations précises et détaillées. Notre réseau entièrement convolutif atteint l'état de l'art en segmentation du PASCAL VOC (amélioration relative de 20% jusqu'à 62,2% d'IU moyen sur 2012), NYUDv2 et SIFT Flow, tout en effectuant l'inférence en moins d'un tiers de seconde pour une image typique.