EfficientPS : Segmentation panoptique efficace

Comprendre la scène dans laquelle opère un robot autonome est essentiel à son fonctionnement efficace. Cette compréhension de scène exige la reconnaissance des instances de participants à la circulation ainsi que des sémantiques générales de la scène, ce qui peut être traité de manière efficace par la tâche de segmentation panoptique. Dans cet article, nous introduisons l’architecture Efficient Panoptic Segmentation (EfficientPS), basée sur un squelette partagé qui encode et fusionne efficacement des caractéristiques multi-échelles riches en sémantique. Nous intégrons une nouvelle tête sémantique qui agrège de manière cohérente les caractéristiques fines et contextuelles, ainsi qu’une nouvelle variante de Mask R-CNN comme tête d’instance. Nous proposons également un nouveau module de fusion panoptique qui intègre de manière harmonieuse les logits de sortie provenant des deux têtes de notre architecture EfficientPS afin d’obtenir la sortie finale de segmentation panoptique. En outre, nous introduisons le jeu de données KITTI panoptique, qui contient des annotations panoptiques pour le célèbre benchmark KITTI, connu pour sa difficulté. Des évaluations étendues sur Cityscapes, KITTI, Mapillary Vistas et Indian Driving Dataset démontrent que notre architecture proposée établit de manière cohérente un nouveau record sur ces quatre benchmarks, tout en étant l’architecture de segmentation panoptique la plus efficace et la plus rapide à ce jour.