il y a 8 mois

Résumé

Les modèles pré-entraînés de vision-langage, tels que CLIP, sont de plus en plus utilisés pour aborder la tâche complexe de segmentation à vocabulaire ouvert (OVS), grâce à leur espace d'embedding bien aligné entre vision et texte. Les solutions typiques impliquent soit de figer CLIP pendant l'entraînement pour maintenir sa capacité zero-shot, soit d'affiner le codificateur visuel de CLIP pour améliorer sa sensibilité perceptive aux régions locales. Cependant, peu d'entre elles intègrent une optimisation collaborative entre vision et texte. À cet égard, nous proposons le transfert dépendant du contenu pour renforcer de manière adaptative chaque embedding textuel en interagissant avec l'image d'entrée, ce qui constitue une méthode efficace en termes de paramètres pour optimiser la représentation textuelle. De plus, nous introduisons une stratégie de compensation des représentations, consistant à réviser la représentation originale CLIP-V comme compensation pour maintenir la capacité zero-shot de CLIP. Par cette approche, les représentations visuelles et textuelles de CLIP sont optimisées de manière collaborative, améliorant ainsi l'alignement de l'espace des caractéristiques vision-texte. Selon nos connaissances actuelles, nous sommes les premiers à établir un mécanisme d'optimisation collaborative entre vision et texte dans le domaine de l'OVS. Des expériences approfondies montrent que notre méthode atteint des performances supérieures sur des benchmarks populaires d'OVS. En segmentation sémantique à vocabulaire ouvert, notre méthode surpasses les approches précédentes les plus avancées avec des gains respectifs de +0,5 %, +2,3 %, +3,4 %, +0,4 % et +1,1 % en mIoU sur A-847, A-150, PC-459, PC-59 et PAS-20. De plus, dans un cadre panoramique sur ADE20K, nous obtenons des performances de 27,1 PQ (Panoptic Quality), 73,5 SQ (Semantic Quality) et 32,9 RQ (Recognition Quality). Le code sera disponible sur https://github.com/jiaosiyu1999/MAFT-Plus.git .

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Représentation Multimodale

Segmentation Sémantique

Multimodal

Vision Par Ordinateur

Tâche

Siyu Jiao Hongguang Zhu Jiannan Huang Yao Zhao Yunchao Wei Humphrey Shi

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

HyperAI

il y a 8 mois

Représentation Multimodale

Segmentation Sémantique

Multimodal

Vision Par Ordinateur

Tâche

Siyu Jiao Hongguang Zhu Jiannan Huang Yao Zhao Yunchao Wei Humphrey Shi

Résumé

PDF source

Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA

GPU prêts à l’emploi

Tarifs les plus avantageux

Commencer Voir les tarifs

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour

Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin

Propulsé par MailChimp

Optimisation de la représentation vision-text collaborative pour le segmention à vocabulaire ouvert | Articles | HyperAI

Command Palette

Optimisation de la représentation vision-text collaborative pour le segmention à vocabulaire ouvert

Siyu Jiao Hongguang Zhu Jiannan Huang Yao Zhao Yunchao Wei Humphrey Shi

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Optimisation de la représentation vision-text collaborative pour le segmention à vocabulaire ouvert

Siyu Jiao Hongguang Zhu Jiannan Huang Yao Zhao Yunchao Wei Humphrey Shi

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters

Command Palette

Optimisation de la représentation vision-text collaborative pour le segmention à vocabulaire ouvert

Siyu Jiao Hongguang Zhu Jiannan Huang Yao Zhao Yunchao Wei Humphrey Shi

Résumé

Créer de l'IA avec l'IA

HyperAI Newsletters