il y a 2 mois

Segmentation d'images à l'aide de prompts textuels et visuels

Lüddecke, Timo ; Ecker, Alexander S.

Résumé

La segmentation d'images est généralement abordée en formant un modèle pour un ensemble fixe de classes d'objets. L'intégration de nouvelles classes ou de requêtes plus complexes ultérieurement est coûteuse car elle nécessite une ré-entraînement du modèle sur un jeu de données qui couvre ces expressions. Nous proposons ici un système capable de générer des segmentations d'images basées sur des prompts arbitraires au moment du test. Un prompt peut être soit un texte, soit une image. Cette approche nous permet de créer un modèle unifié (formé une seule fois) pour trois tâches de segmentation courantes, chacune présentant des défis distincts : la segmentation par expression référentielle, la segmentation à zéro exemple et la segmentation à un exemple. Nous nous appuyons sur le modèle CLIP comme base, que nous étendons avec un décodeur basé sur un transformer pour permettre une prédiction dense. Après l'entraînement sur une version étendue du jeu de données PhraseCut, notre système génère une carte de segmentation binaire pour une image en fonction d'un prompt textuel libre ou d'une image supplémentaire exprimant la requête. Nous analysons en détail différentes variantes des prompts basés sur des images. Cette nouvelle entrée hybride permet une adaptation dynamique non seulement aux trois tâches de segmentation mentionnées ci-dessus, mais aussi à toute tâche de segmentation binaire où une requête textuelle ou imagée peut être formulée. Enfin, nous constatons que notre système s'adapte bien aux requêtes généralisées impliquant des affordances ou des propriétés. Le code est disponible à l'adresse suivante : https://eckerlab.org/code/clipseg.