HyperAIHyperAI

Command Palette

Search for a command to run...

OTSeg : Attention Sinkhorn à multi-prompt pour la segmentation sémantique zéro-shot

Kwanyoung Kim Yujin Oh Jong Chul Ye

Résumé

Le succès récent de CLIP a démontré des résultats prometteurs dans la segmentation sémantique zéro-shot en transférant des connaissances multimodales vers une classification au niveau des pixels. Toutefois, les approches existantes présentent encore des limites lorsqu’elles cherchent à exploiter les connaissances pré-entraînées de CLIP afin d’aligner étroitement les embeddings textuels avec les embeddings pixel. Pour surmonter ce problème, nous proposons OTSeg, un nouveau mécanisme d’attention multimodale visant à renforcer le potentiel de plusieurs prompts textuels pour correspondre aux embeddings pixel associés. Nous introduisons tout d’abord Multi-Prompts Sinkhorn (MPS), basé sur l’algorithme de transport optimal (OT), qui permet à plusieurs prompts textuels de se concentrer sélectivement sur différentes caractéristiques sémantiques présentes dans les pixels d’une image. En outre, inspirés par le succès des Sinkformers dans des contextes unimodaux, nous proposons une extension de MPS, nommée Multi-Prompts Sinkhorn Attention (MPSA), qui remplace efficacement les mécanismes d’attention croisée dans le cadre des Transformers en environnements multimodaux. À travers des expérimentations étendues, nous démontrons que OTSeg atteint un état de l’art (SOTA) avec des gains significatifs sur les tâches de segmentation sémantique zéro-shot (ZS3) sur trois jeux de données standard.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
OTSeg : Attention Sinkhorn à multi-prompt pour la segmentation sémantique zéro-shot | Articles | HyperAI