Panoptic-DeepLab : une base simple, puissante et rapide pour la segmentation panoramique basée sur le bas

Dans ce travail, nous introduisons Panoptic-DeepLab, un système simple, puissant et rapide pour la segmentation panoptique, visant à établir une base solide pour les méthodes bottom-up capables d’atteindre une performance comparable à celle des méthodes à deux étapes, tout en offrant une vitesse d’inférence élevée. Plus précisément, Panoptic-DeepLab adopte des structures spécifiques à la segmentation sémantique et à la segmentation d’instances : un dual-ASPP et un dual-décodage. La branche de segmentation sémantique suit la conception classique des modèles de segmentation sémantique (par exemple, DeepLab), tandis que la branche de segmentation d’instances est indépendante de la classe, reposant sur une régression simple du centre d’instance. En conséquence, notre modèle unique Panoptic-DeepLab obtient la première place sur les trois évaluations de Cityscapes, établissant un nouveau record avec un mIoU de 84,2 %, une AP de 39,0 % et une PQ de 65,5 % sur le jeu de test. En outre, équipé de MobileNetV3, Panoptic-DeepLab fonctionne presque en temps réel sur une seule image de taille 1025×2049 (15,8 images par seconde), tout en atteignant une performance compétitive sur Cityscapes (54,1 % de PQ sur le jeu de test). Sur le jeu de test Mapillary Vistas, notre ensemble de six modèles atteint une PQ de 42,7 %, surpassant nettement le gagnant du défi 2018 de 1,5 %. Enfin, Panoptic-DeepLab atteint également des performances comparables à celles de plusieurs approches top-down sur le défi exigeant COCO. Pour la première fois, nous démontrons qu’une approche bottom-up peut atteindre des résultats de pointe dans la segmentation panoptique.