Apprentissage de l'occlusion d'instances pour la segmentation panoptique

La segmentation panoptique nécessite des segments à la fois de « choses » (instances d'objets comptables) et de « trucs » (régions non comptables et amorphes) au sein d'une seule sortie. Une approche courante consiste à fusionner la segmentation d'instances (pour les « choses ») et la segmentation sémantique (pour les « trucs ») en un placement non superposé de segments, et à résoudre les chevauchements. Cependant, l'ordre des instances basé sur la confiance de détection ne corrèle pas bien avec la relation d'occlusion naturelle. Pour résoudre ce problème, nous proposons une branche chargée de modéliser comment deux masques d'instances devraient se chevaucher comme une relation binaire. Notre méthode, nommée OCFusion, est légère mais particulièrement efficace dans le processus de fusion d'instances. OCFusion est formée avec la relation vérité terrain dérivée automatiquement des annotations existantes du jeu de données. Nous obtenons des résultats de pointe sur COCO et montrons des résultats compétitifs sur le banc d'essai de segmentation panoptique Cityscapes.