Réseaux Neuronaux Pleinement Convolutifs pour la Segmentation Sémantique

Les réseaux de neurones convolutifs sont des modèles visuels puissants qui produisent des hiérarchies de caractéristiques. Nous démontrons que les réseaux de neurones convolutifs, formés de manière end-to-end, pixel à pixel, améliorent le meilleur résultat précédent en segmentation sémantique. Notre principale intuition est de construire des réseaux « entièrement convolutifs » qui acceptent une entrée de taille arbitraire et produisent une sortie d'une taille correspondante avec une inférence et un apprentissage efficaces. Nous définissons et détaillons l'espace des réseaux entièrement convolutifs, expliquons leur application aux tâches de prédiction spatialement dense, et établissons des liens avec les modèles antérieurs. Nous adaptons des réseaux de classification contemporains (AlexNet, le réseau VGG, et GoogLeNet) en réseaux entièrement convolutifs et transférons leurs représentations apprises par un ajustement fin (fine-tuning) à la tâche de segmentation. Nous définissons ensuite une architecture de saut qui combine les informations sémantiques d'une couche profonde et grossière avec les informations d'apparence d'une couche superficielle et fine pour produire des segmentations précises et détaillées. Notre réseau entièrement convolutif atteint une amélioration significative en segmentation du PASCAL VOC (amélioration relative de 30% à 67,2% d'Intersection sur Union moyenne en 2012), NYUDv2, SIFT Flow et PASCAL-Context, tout en effectuant l'inférence en moins d'un dixième de seconde pour une image typique.