Réseaux de convolution entièrement connectés pour la segmentation panoptique

Dans cet article, nous présentons un cadre conceptuellement simple, puissant et efficace pour la segmentation panoptique, appelé Panoptic FCN. Notre approche vise à représenter et prédire les objets en avant-plan (things) et le fond (stuff) dans une seule chaîne entièrement convolutive. Plus précisément, Panoptic FCN encode chaque instance d'objet ou catégorie de stuff dans un poids de noyau spécifique grâce au générateur de noyaux proposé, et produit les prédictions en effectuant une convolution directe sur les caractéristiques à haute résolution. Grâce à cette méthode, les propriétés sensibles aux instances pour les things et les propriétés sémantiquement cohérentes pour le stuff peuvent être respectivement satisfaites dans un flux de travail simple : générer un noyau puis segmenter. Sans nécessiter de boîtes englobantes supplémentaires pour la localisation ou la séparation des instances, la méthode proposée dépasse les modèles précédents basés sur des boîtes ainsi que les modèles sans boîtes, tout en offrant une efficacité élevée sur les jeux de données COCO, Cityscapes et Mapillary Vistas, même avec une seule échelle d'entrée. Le code source est mis à disposition publiquement à l'adresse suivante : https://github.com/Jia-Research-Lab/PanopticFCN.