il y a 2 mois

Segmentation d'instances avec prise en compte de l'occlusion via des architectures de réseau BiLayer

Ke, Lei ; Tai, Yu-Wing ; Tang, Chi-Keung

Résumé

La segmentation d'objets d'image fortement chevauchants est un défi, car il n'y a généralement pas de distinction claire entre les contours réels des objets et les limites d'occultation sur les images. Contrairement aux méthodes précédentes de segmentation d'instances, nous modélisons la formation d'image comme une composition de deux couches superposées, et proposons le Réseau de Convolution à Deux Couches (Bilayer Convolutional Network, BCNet), où la couche supérieure détecte les objets occultants (occluders) et la couche inférieure infère les instances partiellement occultées (occludees). La modélisation explicite de la relation d'occultation avec une structure à deux couches permet naturellement de découpler les frontières des instances occultantes et occultées, tout en prenant en compte leur interaction lors de la régression du masque.Nous examinons l'efficacité de la structure à deux couches en utilisant deux conceptions populaires de réseaux convolutionnels, à savoir le Réseau de Convolution Complètement Connexe (Fully Convolutional Network, FCN) et le Réseau de Convolution Graphique (Graph Convolutional Network, GCN). De plus, nous formulons le découplage à deux couches en utilisant le transformateur visuel (Vision Transformer, ViT), en représentant les instances dans l'image par des requêtes apprenables distinctes pour les occluders et les occludees. Les améliorations importantes et cohérentes obtenues avec des détecteurs d'objets basés sur une ou deux étapes et sur des requêtes, utilisant divers backbones et choix de couches réseau, valident la capacité de généralisation du découplage à deux couches. Cela est démontré par des expériences approfondies sur des benchmarks de segmentation d'instances d'image (COCO, KINS, COCOA) et des benchmarks de segmentation d'instances vidéo (YTVIS, OVIS, BDD100K MOTS), notamment pour les cas d'occultation importante.Le code source et les données sont disponibles à l'adresse suivante : https://github.com/lkeab/BCNet.