Réseaux de Pyramides de Caractéristiques Panoptiques

La tâche de segmentation panoptique récemment introduite a renouvelé l'intérêt de notre communauté pour l'unification des tâches de segmentation d'instances (pour les classes d'objets) et de segmentation sémantique (pour les classes de fond). Cependant, les méthodes actuelles de pointe pour cette tâche conjointe utilisent des réseaux distincts et dissemblables pour la segmentation d'instances et la segmentation sémantique, sans effectuer aucune opération commune. Dans ce travail, nous visons à unifier ces méthodes au niveau architectural, en concevant un seul réseau capable de réaliser les deux tâches. Notre approche consiste à doter Mask R-CNN, une méthode populaire de segmentation d'instances, d'une branche de segmentation sémantique en utilisant une architecture commune du Feature Pyramid Network (FPN). De manière surprenante, cette simple ligne de base non seulement reste efficace pour la segmentation d'instances, mais produit également une méthode légère et performante pour la segmentation sémantique. Dans cette étude, nous menons une analyse détaillée de cette version minimalement étendue de Mask R-CNN avec FPN, que nous appelons Panoptic FPN, et montrons qu'elle constitue une base solide et précise pour les deux tâches. Étant donné son efficacité et sa simplicité conceptuelle, nous espérons que notre méthode puisse servir de base robuste et faciliter les recherches futures en segmentation panoptique.