Extraction d'instances complètes pour le segmention d'instances faiblement supervisée

Le segmention d'instances faiblement supervisée (WSIS) à l'aide de seules des étiquettes au niveau de l'image est une tâche complexe en raison de la difficulté d'aligner les annotations grossières avec la tâche plus fine. Cependant, grâce aux progrès des réseaux neuronaux profonds (DNNs), le WSIS a suscité une attention considérable. En suivant un paradigme basé sur des propositions, nous rencontrons un problème de segmentation redondante résultant d'une seule instance représentée par plusieurs propositions. Par exemple, lorsque nous alimentons le réseau avec une image d'un chien et des propositions, nous espérons obtenir une seule proposition contenant le chien, mais le réseau génère plusieurs propositions. Pour résoudre ce problème, nous proposons une nouvelle approche pour le WSIS qui se concentre sur l'affinement en ligne des instances complètes grâce à l'utilisation de têtes MaskIoU pour prédire les scores d'intégrité des propositions et une stratégie d'Extraction d'Instances Complètes (CIM) pour modéliser explicitement le problème de segmentation redondante et générer des pseudo-étiquettes raffinées. Notre méthode permet au réseau de reconnaître plusieurs instances et des instances complètes, et nous améliorons davantage sa robustesse en intégrant une stratégie Anti-bruit. Les évaluations empiriques sur les jeux de données PASCAL VOC 2012 et MS COCO montrent que notre méthode atteint des performances de pointe avec une marge notable. Notre implémentation sera mise à disposition sur https://github.com/ZechengLi19/CIM.