HyperAIHyperAI

Command Palette

Search for a command to run...

Segmentation d'instances avec prise en compte de l'occlusion via des architectures de réseau BiLayer

Lei Ke Yu-Wing Tai, Senior Member, IEEE Chi-Keung Tang, Fellow, IEEE

Résumé

La segmentation d'objets d'image fortement chevauchants est un défi, car il n'y a généralement pas de distinction claire entre les contours réels des objets et les limites d'occultation sur les images. Contrairement aux méthodes précédentes de segmentation d'instances, nous modélisons la formation d'image comme une composition de deux couches superposées, et proposons le Réseau de Convolution à Deux Couches (Bilayer Convolutional Network, BCNet), où la couche supérieure détecte les objets occultants (occluders) et la couche inférieure infère les instances partiellement occultées (occludees). La modélisation explicite de la relation d'occultation avec une structure à deux couches permet naturellement de découpler les frontières des instances occultantes et occultées, tout en prenant en compte leur interaction lors de la régression du masque.Nous examinons l'efficacité de la structure à deux couches en utilisant deux conceptions populaires de réseaux convolutionnels, à savoir le Réseau de Convolution Complètement Connexe (Fully Convolutional Network, FCN) et le Réseau de Convolution Graphique (Graph Convolutional Network, GCN). De plus, nous formulons le découplage à deux couches en utilisant le transformateur visuel (Vision Transformer, ViT), en représentant les instances dans l'image par des requêtes apprenables distinctes pour les occluders et les occludees. Les améliorations importantes et cohérentes obtenues avec des détecteurs d'objets basés sur une ou deux étapes et sur des requêtes, utilisant divers backbones et choix de couches réseau, valident la capacité de généralisation du découplage à deux couches. Cela est démontré par des expériences approfondies sur des benchmarks de segmentation d'instances d'image (COCO, KINS, COCOA) et des benchmarks de segmentation d'instances vidéo (YTVIS, OVIS, BDD100K MOTS), notamment pour les cas d'occultation importante.Le code source et les données sont disponibles à l'adresse suivante : https://github.com/lkeab/BCNet.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Segmentation d'instances avec prise en compte de l'occlusion via des architectures de réseau BiLayer | Articles | HyperAI