Segmentation d'instances pixel par pixel avec un réseau dynamiquement instancié

Les recherches sur la segmentation sémantique et la détection d'objets ont récemment connu des progrès rapides. Cependant, la première tâche ne distingue pas différentes instances du même objet, tandis que la seconde opère à un niveau grossier, basé sur des boîtes englobantes. Nous proposons un système de Segmentation d'Instances qui génère une carte de segmentation où chaque pixel est attribué une étiquette de classe d'objet et une identité d'instance. La plupart des approches adaptent les détecteurs d'objets pour produire des segments plutôt que des boîtes. En revanche, notre méthode repose sur un module initial de segmentation sémantique, qui alimente un sous-réseau d'instances. Ce sous-réseau utilise la segmentation initiale au niveau des catégories, ainsi que des indices provenant de la sortie d'un détecteur d'objets, dans une CRF (Conditional Random Field) end-to-end pour prédire les instances. Cette partie de notre modèle est dynamiquement instanciée pour produire un nombre variable d'instances par image. Notre approche end-to-end n'exige aucun traitement postérieur et considère l'image dans son ensemble, plutôt que de traiter des propositions indépendantes. Par conséquent, contrairement à certaines travaux apparentés, un pixel ne peut appartenir qu'à une seule instance. De plus, nous obtenons des segmentations bien plus précises, comme le montrent nos résultats en pointe (particulièrement aux seuils élevés de IoU) sur les jeux de données Pascal VOC et Cityscapes.