PosSAM : Panoptique Segmentation de Tout Mot

Dans cet article, nous présentons un modèle de segmentation panoramique à vocabulaire ouvert qui unifie efficacement les forces du modèle Segment Anything (SAM) avec le modèle vision-langage CLIP dans un cadre bout-en-bout. Bien que SAM excelle dans la génération de masques spatialement conscients, son décodeur manque de capacité à reconnaître les informations de classe d'objets et a tendance à suregmenter sans une guidance supplémentaire. Les approches existantes remédient à cette limitation en utilisant des techniques multistades et en faisant appel à des modèles distincts pour générer des invites conscientes de la classe, telles que des boîtes englobantes ou des masques de segmentation. Notre méthode proposée, PosSAM, est un modèle bout-en-bout qui exploite les caractéristiques spatiales riches de SAM pour produire des masques conscients des instances et utilise les caractéristiques sémantiquement discriminantes de CLIP pour une classification d'instances efficace. Plus précisément, nous abordons les limitations de SAM et proposons un nouveau module de Pooling Discriminatif Local (LDP) qui combine les caractéristiques agnostiques de classe de SAM et les caractéristiques conscientes de la classe de CLIP pour une classification à vocabulaire ouvert non biaisée. De plus, nous introduisons un algorithme d'Ensemblier Sélectif Conscient des Masques (MASE) qui améliore adaptivement la qualité des masques générés et renforce les performances de classification à vocabulaire ouvert lors de l'inférence pour chaque image. Nous avons mené des expériences approfondies pour démontrer les propriétés robustes de généralisation de nos méthodes sur plusieurs jeux de données, atteignant des performances d'état de l'art avec des améliorations substantielles par rapport aux méthodes actuelles (SOTA) de segmentation panoramique à vocabulaire ouvert. Dans les configurations COCO vers ADE20K et ADE20K vers COCO, PosSAM surpasse largement les méthodes précédentes d'état de l'art avec une marge respective de 2,4 PQ et 4,6 PQ. Site web du projet : https://vibashan.github.io/possam-web/.