Exploiter les modèles de fondation visuelle pour une segmentation à vocabulaire ouvert haute performance et sans entraînement

Bien que le pré-entraînement contrastif de langage et d'image (CLIP) ait progressé dans les prédictions à vocabulaire ouvert, ses performances en segmentation sémantique restent sous-optimales. Cette lacune provient principalement de ses caractéristiques sémantiques invariantes spatialement et de sa résolution limitée. Bien que des adaptations antérieures aient abordé l'invariance spatiale sémantique en modifiant l'auto-attention dans l'encodeur d'images de CLIP, la question de la résolution limitée n'a pas encore été explorée. Contrairement aux méthodes précédentes qui segmentaient des sous-images par une fenêtre glissante puis assemblaient les résultats, nous introduisons un paradigme assemblage-en-segmentation qui intègre le modèle Segment-Anything (SAM) pour résoudre le problème de résolution, SAM étant particulièrement efficace pour extraire des corrélations sémantiques fines à partir d'images haute-résolution. Plus précisément, nous présentons Trident, un cadre sans entraînement qui assemble d'abord les caractéristiques extraites par CLIP et DINO à partir de sous-images, puis utilise l'encodeur de SAM pour créer une matrice de corrélation permettant une agrégation globale, ce qui élargit le champ récepteur pour une segmentation efficace. De plus, nous proposons une stratégie de raffinement pour les sorties de segmentation grossière de CLIP en les transformant en invitations pour SAM, améliorant ainsi davantage les performances en segmentation. Trident réalise une amélioration significative du mIoU sur huit benchmarks comparativement à l'état actuel de l'art, passant de 44,4 à 48,6. Le code est disponible sur https://github.com/YuHengsss/Trident.