il y a 11 jours

OTSeg : Attention Sinkhorn à multi-prompt pour la segmentation sémantique zéro-shot

Kwanyoung Kim, Yujin Oh, Jong Chul Ye

Résumé

Le succès récent de CLIP a démontré des résultats prometteurs dans la segmentation sémantique zéro-shot en transférant des connaissances multimodales vers une classification au niveau des pixels. Toutefois, les approches existantes présentent encore des limites lorsqu’elles cherchent à exploiter les connaissances pré-entraînées de CLIP afin d’aligner étroitement les embeddings textuels avec les embeddings pixel. Pour surmonter ce problème, nous proposons OTSeg, un nouveau mécanisme d’attention multimodale visant à renforcer le potentiel de plusieurs prompts textuels pour correspondre aux embeddings pixel associés. Nous introduisons tout d’abord Multi-Prompts Sinkhorn (MPS), basé sur l’algorithme de transport optimal (OT), qui permet à plusieurs prompts textuels de se concentrer sélectivement sur différentes caractéristiques sémantiques présentes dans les pixels d’une image. En outre, inspirés par le succès des Sinkformers dans des contextes unimodaux, nous proposons une extension de MPS, nommée Multi-Prompts Sinkhorn Attention (MPSA), qui remplace efficacement les mécanismes d’attention croisée dans le cadre des Transformers en environnements multimodaux. À travers des expérimentations étendues, nous démontrons que OTSeg atteint un état de l’art (SOTA) avec des gains significatifs sur les tâches de segmentation sémantique zéro-shot (ZS3) sur trois jeux de données standard.