ParseNet : Regarder plus largement pour mieux voir

Nous présentons une technique permettant d'ajouter un contexte global aux réseaux de neurones convolutifs profonds pour la segmentation sémantique. Cette approche est simple et utilise la moyenne des caractéristiques d'une couche pour enrichir les caractéristiques à chaque emplacement. De plus, nous examinons plusieurs particularités de l'entraînement, ce qui améliore considérablement les performances des réseaux de base (par exemple, ceux issus de FCN). Lorsque nous ajoutons notre fonctionnalité globale proposée et une technique pour apprendre les paramètres de normalisation, la précision s'améliore constamment, même par rapport à nos versions améliorées des réseaux de base. Notre approche proposée, ParseNet, atteint des performances de pointe sur SiftFlow et PASCAL-Context avec un coût computationnel supplémentaire minime par rapport aux réseaux de base, et offre des performances proches du niveau actuel sur la segmentation sémantique PASCAL VOC 2012 avec une méthode simple. Le code source est disponible à l'adresse suivante : https://github.com/weiliu89/caffe/tree/fcn .