UPSNet : Un réseau unifié pour la segmentation panoptique

Dans cet article, nous proposons un réseau de segmentation panoramique unifié (UPSNet) pour aborder la tâche de segmentation panoramique récemment introduite. Sur la base d'un seul réseau résiduel principal, nous concevons tout d'abord une tête de segmentation sémantique basée sur des convolutions déformables et une tête de segmentation d'instances au style Mask R-CNN, qui résolvent simultanément ces deux sous-tâches. Plus important encore, nous introduisons une tête panoramique sans paramètre qui résout la segmentation panoramique par classification pixel par pixel. Elle utilise en premier lieu les logits issus des deux têtes précédentes, puis étend innovamment la représentation pour permettre la prédiction d'une classe supplémentaire inconnue, ce qui aide à mieux résoudre les conflits entre la segmentation sémantique et la segmentation d'instances. De plus, elle gère le défi posé par le nombre variable d'instances et autorise la rétropropagation jusqu'aux modules inférieurs de manière end-to-end. Des résultats expérimentaux approfondis sur Cityscapes, COCO et notre jeu de données interne montrent que notre UPSNet atteint des performances de pointe avec une inférence beaucoup plus rapide. Le code est disponible à l'adresse suivante : https://github.com/uber-research/UPSNet