HyperAIHyperAI

Command Palette

Search for a command to run...

Mask-Adapter : Le Diable est dans les Masques pour la Segmentation à Vocabulaire Ouvert

Yongkang Li; Tianheng Cheng; Bin Feng; Wenyu Liu; Xinggang Wang

Résumé

Les méthodes récentes de segmentation à vocabulaire ouvert adoptent des générateurs de masques pour prédire des masques de segmentation et exploitent des modèles pré-entraînés de vision-langue, tels que CLIP, pour classifier ces masques par le biais du pooling de masques. Bien que ces approches montrent des résultats prometteurs, il est contre-intuitif que des masques précis échouent souvent à produire des résultats de classification précis en utilisant le pooling des plongements d'images CLIP dans les régions de masque. Dans cet article, nous mettons en lumière les limites de performance du pooling de masques et présentons Mask-Adapter, une méthode simple mais efficace pour relever ces défis en segmentation à vocabulaire ouvert. Comparé à l'utilisation directe de masques proposés, notre Mask-Adapter extrait des cartes d'activation sémantique à partir de ces masques, fournissant ainsi des informations contextuelles plus riches et assurant une meilleure correspondance entre les masques et CLIP. De plus, nous proposons une perte de cohérence de masque qui encourage les masques proposés avec des IoUs similaires à obtenir des plongements CLIP similaires, afin d'améliorer la robustesse des modèles face aux variations des masques prédits. Le Mask-Adapter s'intègre sans heurt aux méthodes de segmentation à vocabulaire ouvert basées sur le pooling de masques, sous forme d'un module plug-and-play, offrant ainsi des résultats de classification plus précis. Des expériences étendues sur plusieurs benchmarks zero-shot démontrent des gains significatifs en performance pour notre Mask-Adapter appliqué à plusieurs méthodes bien établies. Il convient également de noter que le Mask-Adapter s'étend efficacement au SAM (Segment Anything Model) et obtient des résultats impressionnants sur plusieurs jeux de données de segmentation à vocabulaire ouvert. Le code source et les modèles sont disponibles sur https://github.com/hustvl/MaskAdapter.


Créer de l'IA avec l'IA

De l'idée au lancement — accélérez votre développement IA avec le co-codage IA gratuit, un environnement prêt à l'emploi et le meilleur prix pour les GPU.

Codage assisté par IA
GPU prêts à l’emploi
Tarifs les plus avantageux

HyperAI Newsletters

Abonnez-vous à nos dernières mises à jour
Nous vous enverrons les dernières mises à jour de la semaine dans votre boîte de réception à neuf heures chaque lundi matin
Propulsé par MailChimp
Mask-Adapter : Le Diable est dans les Masques pour la Segmentation à Vocabulaire Ouvert | Articles | HyperAI