Optimisation de la représentation vision-text collaborative pour le segmention à vocabulaire ouvert

Les modèles pré-entraînés de vision-langage, tels que CLIP, sont de plus en plus utilisés pour aborder la tâche complexe de segmentation à vocabulaire ouvert (OVS), grâce à leur espace d'embedding bien aligné entre vision et texte. Les solutions typiques impliquent soit de figer CLIP pendant l'entraînement pour maintenir sa capacité zero-shot, soit d'affiner le codificateur visuel de CLIP pour améliorer sa sensibilité perceptive aux régions locales. Cependant, peu d'entre elles intègrent une optimisation collaborative entre vision et texte. À cet égard, nous proposons le transfert dépendant du contenu pour renforcer de manière adaptative chaque embedding textuel en interagissant avec l'image d'entrée, ce qui constitue une méthode efficace en termes de paramètres pour optimiser la représentation textuelle. De plus, nous introduisons une stratégie de compensation des représentations, consistant à réviser la représentation originale CLIP-V comme compensation pour maintenir la capacité zero-shot de CLIP. Par cette approche, les représentations visuelles et textuelles de CLIP sont optimisées de manière collaborative, améliorant ainsi l'alignement de l'espace des caractéristiques vision-texte. Selon nos connaissances actuelles, nous sommes les premiers à établir un mécanisme d'optimisation collaborative entre vision et texte dans le domaine de l'OVS. Des expériences approfondies montrent que notre méthode atteint des performances supérieures sur des benchmarks populaires d'OVS. En segmentation sémantique à vocabulaire ouvert, notre méthode surpasses les approches précédentes les plus avancées avec des gains respectifs de +0,5 %, +2,3 %, +3,4 %, +0,4 % et +1,1 % en mIoU sur A-847, A-150, PC-459, PC-59 et PAS-20. De plus, dans un cadre panoramique sur ADE20K, nous obtenons des performances de 27,1 PQ (Panoptic Quality), 73,5 SQ (Semantic Quality) et 32,9 RQ (Recognition Quality). Le code sera disponible sur https://github.com/jiaosiyu1999/MAFT-Plus.git .