EVF-SAM: Frühe Fusionsmethode für visuelle und sprachliche Informationen zur textbasierten Segmentierung von beliebigen Objekten

Das Segment Anything Modell (SAM) hat aufgrund seiner überlegenen interaktiven Segmentierungsfähigkeiten mit visuellen Anregungen weitreichende Aufmerksamkeit gefunden, während es noch nicht ausgiebig untersucht wurde, wie es mit textbasierten Anregungen umgehen kann. In dieser Arbeit untersuchen wir empirisch, welche Textanregungscodierer (z.B. CLIP oder LLM) sich gut für die Anpassung des SAMs an die Segmentierung von referierenden Ausdrücken eignen und stellen das Early Vision-language Fusion-based SAM (EVF-SAM) vor. EVF-SAM ist eine einfache, aber effektive Methode zur referierenden Segmentierung, die multimodale Anregungen (d.h., Bild und Text) nutzt und ein vortrainiertes visuell-sprachliches Modell zur Generierung von referierenden Anregungen sowie ein SAM-Modell zur Segmentierung umfasst. Überraschenderweise beobachten wir, dass: (1) multimodale Anregungen und (2) visuell-sprachliche Modelle mit früher Fusion (z.B., BEIT-3) förderlich sind, um SAM für eine präzise referierende Segmentierung zu veranlassen. Unsere Experimente zeigen, dass das vorgeschlagene EVF-SAM auf Basis von BEIT-3 den aktuellen Stand der Technik in Bezug auf die Leistung bei RefCOCO/+/g für referierende Ausdrücke erreicht und die Überlegenheit der Verwendung von SAM mit früher visuell-sprachlicher Fusion unterstreicht. Darüber hinaus erreicht das vorgeschlagene EVF-SAM mit 1,32 Milliarden Parametern erstaunlich höhere Leistungsresultate, während es gleichzeitig fast 82 % der Parameter im Vergleich zu früheren SAM-Methoden basierend auf großen multimodalen Modellen reduziert.