HyperAIHyperAI
il y a 12 jours

Pontifier les points : Segmenter de manière sémantique l’ensemble de manière peu illustrée basée sur les graphes

Anqi Zhang, Guangyu Gao, Jianbo Jiao, Chi Harold Liu, Yunchao Wei
Pontifier les points : Segmenter de manière sémantique l’ensemble de manière peu illustrée basée sur les graphes
Résumé

Les avancées récentes dans les techniques de pré-entraînement à grande échelle ont considérablement renforcé les capacités des modèles fondamentaux de vision, notamment le Segment Anything Model (SAM), capable de générer des masques précis à partir de promts ponctuels ou rectangulaires. Des études récentes ont étendu SAM au cadre du segmentation sémantique à peu de exemples (Few-shot Semantic Segmentation, FSS), en se concentrant sur la génération de promts pour une segmentation sémantique automatique basée sur SAM. Toutefois, ces méthodes peinent à sélectionner des promts adaptés, nécessitent des réglages de hyperparamètres spécifiques selon les scénarios, et souffrent de temps d'inférence longs en un seul exemple (one-shot) en raison d'une utilisation excessive de SAM, ce qui entraîne une faible efficacité et une capacité d'automatisation limitée. Pour remédier à ces problèmes, nous proposons une approche simple mais efficace fondée sur l'analyse de graphes. Plus précisément, un module d’alignement positif-négatif sélectionne dynamiquement les promts ponctuels pour la génération de masques, en particulier en mettant en évidence le potentiel du contexte arrière comme référence négative. Un module ultérieur, Point-Mask Clustering, aligne la granularité des masques et des points sélectionnés en construisant un graphe orienté basé sur la couverture des points par les masques. Ces points sont ensuite agrégés en décomposant efficacement les composantes faiblement connectées de ce graphe orienté, permettant ainsi de construire des clusters naturels distincts. Enfin, une porte positive et une porte de surdetection, bénéficiant de l’alignement de granularité basé sur les graphes, regroupent les masques à haute confiance tout en filtrant les faux positifs pour la prédiction finale, réduisant ainsi l’usage de hyperparamètres supplémentaires et la génération redondante de masques. Une analyse expérimentale étendue sur des jeux de données standards de FSS, de segmentation de parties en un seul exemple (One-shot Part Segmentation) et de FSS multi-domaines valide l’efficacité et l’efficience de l’approche proposée, surpassant les modèles généralistes de pointe avec un mIoU de 58,7 % sur COCO-20i et 35,2 % sur LVIS-92i. Le code est disponible à l’adresse suivante : https://andyzaq.github.io/GF-SAM/.