Segmentation sémantique d'images avec des réseaux de neurones convolutifs profonds et des CRFs pleinement connectés

Les Réseaux Neuronaux Convolutifs Profonds (DCNNs) ont récemment montré des performances de pointe dans les tâches de vision de haut niveau, telles que la classification d'images et la détection d'objets. Ce travail combine des méthodes issues des DCNNs et des modèles graphiques probabilistes pour aborder la tâche de classification au niveau du pixel (également appelée « segmentation sémantique d'image »). Nous démontrons que les réponses à la couche finale des DCNNs ne sont pas suffisamment localisées pour une segmentation d'objets précise. Ceci est dû aux propriétés d'invariance qui rendent les DCNNs efficaces pour les tâches de haut niveau. Nous surmontons cette mauvaise propriété de localisation des réseaux profonds en combinant les réponses à la couche finale du DCNN avec un Champ Aléatoire Gaussien (CRF) totalement connecté. Qualitativement, notre système « DeepLab » est capable de localiser les contours de segments avec une précision supérieure aux méthodes précédentes. Quantitativement, notre méthode établit le nouveau standard en matière de segmentation sémantique d'image sur le jeu de données PASCAL VOC-2012, atteignant une précision IOU (Intersection over Union) de 71,6 % sur l'ensemble de test. Nous montrons comment ces résultats peuvent être obtenus efficacement : une réutilisation soigneuse du réseau et une application novatrice de l'algorithme des « trous » issu de la communauté des ondelettes permettent un calcul dense des réponses du réseau neuronal à 8 images par seconde sur une carte GPU moderne.