Fusion multi-tâche pour une segmentation panoramique et partielle efficace

Dans cet article, nous présentons un nouveau réseau capable de générer des segmentations sémantiques, par instance et par partie en utilisant un encodeur partagé, et qui les fusionne efficacement pour atteindre une segmentation panoptique-partielle. L'unification de ces trois problèmes de segmentation permet d'améliorer mutuellement et de manière cohérente l'apprentissage des représentations. Pour fusionner efficacement les prédictions des trois têtes, nous introduisons un module de fusion conjointe sans paramètre qui équilibre dynamiquement les logits et les fusionne pour créer une segmentation panoptique-partielle. Notre méthode est évaluée sur les jeux de données Cityscapes Panoptic Parts (CPP) et Pascal Panoptic Parts (PPP). Pour CPP, le PartPQ de notre modèle proposé avec la fusion conjointe dépasse l'état de l'art précédent de 1,6 et 4,7 points de pourcentage pour toutes les zones et tous les segments avec parties, respectivement. Sur PPP, notre fusion conjointe surpasse un modèle utilisant la stratégie précédente de fusion descendante par 3,3 points de pourcentage en PartPQ et 10,5 points de pourcentage en PartPQ pour les classes partitionnables.