JPPF : Fusion multi-tâche pour une segmentation panoptique-part cohérente

La segmentation panoptique par parties conscientes des parties est un problème de vision par ordinateur visant à fournir une compréhension sémantique de la scène à différents niveaux de granularité. Plus précisément, les zones sémantiques, les instances d'objets et les parties sémantiques sont prédites simultanément. Dans cet article, nous présentons notre méthode Joint Panoptic Part Fusion (JPPF) qui combine efficacement ces trois segmentations individuelles pour obtenir une segmentation panoptique-par-parties. Deux aspects sont d'une importance primordiale pour cela : premièrement, un modèle unifié pour les trois problèmes est souhaité, permettant une amélioration mutuelle et une représentation cohérente de l'apprentissage ; deuxièmement, équilibrer la combinaison afin qu'elle accorde une importance égale à tous les résultats individuels lors de la fusion. Notre JPPF proposé ne nécessite aucun paramètre et équilibre dynamiquement ses entrées. La méthode est évaluée et comparée sur les ensembles de données Cityscapes Panoptic Parts (CPP) et Pascal Panoptic Parts (PPP) en termes de PartPQ et de Part-Whole Quality (PWQ). À travers des expériences approfondies, nous vérifions l'importance de notre fusion équitable, soulignons son impact le plus significatif sur les zones pouvant être davantage segmentées en parties, et démontrons les capacités de généralisation de notre conception sans ajustement fin sur cinq ensembles de données supplémentaires.