Apprentissage du regroupement pour la segmentation d'instances sans proposition

Ce travail propose un nouvel objectif d'apprentissage pour entraîner un réseau neuronal profond à effectuer une classification de pixels d'image en bout-en-bout. Nous avons appliqué cette approche à la segmentation d'instances, qui se situe à l'intersection de la segmentation sémantique des images et de la détection d'objets. Nous utilisons la propriété fondamentale du marquage des instances -- la relation paire-à-paire entre les pixels -- comme supervision pour formuler l'objectif d'apprentissage, puis nous l'appliquons pour entraîner un réseau neuronal convolutif entièrement convolutionnel (FCN) afin qu'il apprenne à effectuer une classification par pixel. Les clusters résultants peuvent être utilisés directement comme marquage d'instances. Pour prendre en charge le marquage d'un nombre illimité d'instances, nous intégrons également des idées issues de la théorie de la coloration des graphes dans l'objectif d'apprentissage proposé. L'évaluation sur le jeu de données Cityscapes montre des performances solides, prouvant ainsi le concept. De plus, notre approche a obtenu la deuxième place lors de la compétition de détection de voies du Défi CVPR 2017 sur la conduite autonome, et était le meilleur performer sans utiliser de données externes.