Mask-Adapter: Der Teufel steckt in den Masken für die offene Vokabularsegmentierung

Kürzliche Methoden zur offenen Vokabularsegmentierung verwenden Maskegeneratoren, um Segmentationsmasken vorherzusagen, und nutzen vortrainierte visuelle-sprachliche Modelle wie CLIP, um diese Masken durch Maskenpooling zu klassifizieren. Obwohl diese Ansätze vielversprechende Ergebnisse zeigen, ist es paradox, dass genaue Masken oft nicht zu genauen Klassifikationsergebnissen führen, wenn CLIP-Bildembeddings innerhalb der Maskengebiete gepoolt werden. In dieser Arbeit legen wir die Leistungseinschränkungen des Maskenpoolings offen und stellen den Mask-Adapter vor, eine einfache aber effektive Methode, um diese Herausforderungen in der offenen Vokabularsegmentierung zu bewältigen. Im Vergleich zum direkten Einsatz von Proposals-Masken extrahiert unser vorgeschlagener Mask-Adapter semantische Aktivierungskarten aus den Proposals-Masken, was reichere kontextuelle Informationen liefert und eine Ausrichtung zwischen Masken und CLIP gewährleistet. Des Weiteren schlagen wir einen Verlust für die Maskenkonsistenz vor, der Proposals-Masken mit ähnlichen IoUs (Intersection over Union) anregt, ähnliche CLIP-Embeddings zu erzeugen, um die Robustheit der Modelle gegenüber variierenden vorhergesagten Masken zu erhöhen. Der Mask-Adapter integriert sich nahtlos in offene Vokabularsegmentierungsmethoden auf Basis des Maskenpoolings in einem Plug-and-Play-Ansatz und liefert genauere Klassifikationsergebnisse. Umfangreiche Experimente auf mehreren Benchmarks ohne überwachtes Lernen zeigen erhebliche Leistungsverbesserungen für den vorgeschlagenen Mask-Adapter bei mehreren etablierten Methoden. Besonders erwähnenswert ist auch die effektive Anwendung des Mask-Adapters auf SAM (Segment Anything Model), wodurch beeindruckende Ergebnisse auf mehreren Datensätzen zur offenen Vokabularsegmentierung erzielt werden. Der Quellcode und die Modelle sind unter https://github.com/hustvl/MaskAdapter verfügbar.