HyperAIHyperAI
il y a 12 jours

Guidage par prior visuel et textuel pour l'assemblage de masques en segmentation à faibles exemples et au-delà

Chen Shuai, Meng Fanman, Zhang Runtong, Qiu Heqian, Li Hongliang, Wu Qingbo, Xu Linfeng
Guidage par prior visuel et textuel pour l'assemblage de masques en segmentation à faibles exemples et au-delà
Résumé

La segmentation à peu de exemples (Few-shot segmentation, FSS) vise à segmenter des classes nouvelles à partir de quelques images annotées. En raison des avantages de CLIP dans l’alignement entre informations visuelles et textuelles, son intégration peut renforcer la capacité de généralisation des modèles FSS. Toutefois, même en s’appuyant sur CLIP, les méthodes FSS basées sur CLIP existantes restent sujettes à une prédiction biaisée en faveur des classes de base, un phénomène dû aux interactions au niveau des caractéristiques spécifiques aux classes. Pour résoudre ce problème, nous proposons un réseau de composition de masques guidé par des priorités visuelles et textuelles, nommé PGMA-Net (Prior Guided Mask Assemble Network). Ce modèle met en œuvre un processus d’assemblage de masques indépendant des classes afin de réduire ce biais, et reformule diverses tâches sous une même formulation en assemblant les priorités via une mesure d’affinité. Plus précisément, les caractéristiques visuelles et textuelles pertinentes pour chaque classe sont d’abord transformées en priorités indépendantes des classes sous forme de cartes de probabilité. Ensuite, un module d’assemblage de masques guidé par priorité (PGMAM), composé d’unités d’assemblage générales (GAUs), est introduit. Ce module prend en compte des interactions diverses et plug-and-play, telles que les interactions visuelles-textuelles, inter- et intra-images, sans entraînement supplémentaire, ainsi que des interactions d’ordre supérieur. Enfin, pour garantir l’indépendance vis-à-vis des classes, un décodeur hiérarchique avec mécanisme de suppression de canaux (HDCDM) est proposé afin d’exploiter de manière flexible les masques assemblés et les caractéristiques de bas niveau, sans recourir à aucune information spécifique à la classe. Le modèle atteint de nouveaux résultats d’état de l’art sur la tâche FSS, avec un mIoU de $77,6$ sur $\text{PASCAL-}5^i$ et de $59,4$ sur $\text{COCO-}20^i$ dans un scénario 1-shot. En outre, nous démontrons qu’sans entraînement supplémentaire, le PGMA-Net proposé peut résoudre des tâches telles que la segmentation à partir de boîtes englobantes (bbox-level), la segmentation trans-domaine, la co-segmentation et la segmentation zéro-shot (ZSS), établissant ainsi un cadre de segmentation « any-shot » généraliste.