HyperAIHyperAI
il y a 2 mois

Mask-Adapter : Le Diable est dans les Masques pour la Segmentation à Vocabulaire Ouvert

Yongkang Li; Tianheng Cheng; Bin Feng; Wenyu Liu; Xinggang Wang
Mask-Adapter : Le Diable est dans les Masques pour la Segmentation à Vocabulaire Ouvert
Résumé

Les méthodes récentes de segmentation à vocabulaire ouvert adoptent des générateurs de masques pour prédire des masques de segmentation et exploitent des modèles pré-entraînés de vision-langue, tels que CLIP, pour classifier ces masques par le biais du pooling de masques. Bien que ces approches montrent des résultats prometteurs, il est contre-intuitif que des masques précis échouent souvent à produire des résultats de classification précis en utilisant le pooling des plongements d'images CLIP dans les régions de masque. Dans cet article, nous mettons en lumière les limites de performance du pooling de masques et présentons Mask-Adapter, une méthode simple mais efficace pour relever ces défis en segmentation à vocabulaire ouvert. Comparé à l'utilisation directe de masques proposés, notre Mask-Adapter extrait des cartes d'activation sémantique à partir de ces masques, fournissant ainsi des informations contextuelles plus riches et assurant une meilleure correspondance entre les masques et CLIP. De plus, nous proposons une perte de cohérence de masque qui encourage les masques proposés avec des IoUs similaires à obtenir des plongements CLIP similaires, afin d'améliorer la robustesse des modèles face aux variations des masques prédits. Le Mask-Adapter s'intègre sans heurt aux méthodes de segmentation à vocabulaire ouvert basées sur le pooling de masques, sous forme d'un module plug-and-play, offrant ainsi des résultats de classification plus précis. Des expériences étendues sur plusieurs benchmarks zero-shot démontrent des gains significatifs en performance pour notre Mask-Adapter appliqué à plusieurs méthodes bien établies. Il convient également de noter que le Mask-Adapter s'étend efficacement au SAM (Segment Anything Model) et obtient des résultats impressionnants sur plusieurs jeux de données de segmentation à vocabulaire ouvert. Le code source et les modèles sont disponibles sur https://github.com/hustvl/MaskAdapter.

Mask-Adapter : Le Diable est dans les Masques pour la Segmentation à Vocabulaire Ouvert | Articles de recherche récents | HyperAI