HyperAIHyperAI

Command Palette

Search for a command to run...

EVF-SAM: Frühe Fusionsmethode für visuelle und sprachliche Informationen zur textbasierten Segmentierung von beliebigen Objekten

Yuxuan Zhang Tianheng Cheng Rui Hu ei Liu Heng Liu Longjin Ran Xiaoxin Chen Wenyu Liu Xinggang Wang

Zusammenfassung

Das Segment Anything Modell (SAM) hat aufgrund seiner überlegenen interaktiven Segmentierungsfähigkeiten mit visuellen Anregungen weitreichende Aufmerksamkeit gefunden, während es noch nicht ausgiebig untersucht wurde, wie es mit textbasierten Anregungen umgehen kann. In dieser Arbeit untersuchen wir empirisch, welche Textanregungscodierer (z.B. CLIP oder LLM) sich gut für die Anpassung des SAMs an die Segmentierung von referierenden Ausdrücken eignen und stellen das Early Vision-language Fusion-based SAM (EVF-SAM) vor. EVF-SAM ist eine einfache, aber effektive Methode zur referierenden Segmentierung, die multimodale Anregungen (d.h., Bild und Text) nutzt und ein vortrainiertes visuell-sprachliches Modell zur Generierung von referierenden Anregungen sowie ein SAM-Modell zur Segmentierung umfasst. Überraschenderweise beobachten wir, dass: (1) multimodale Anregungen und (2) visuell-sprachliche Modelle mit früher Fusion (z.B., BEIT-3) förderlich sind, um SAM für eine präzise referierende Segmentierung zu veranlassen. Unsere Experimente zeigen, dass das vorgeschlagene EVF-SAM auf Basis von BEIT-3 den aktuellen Stand der Technik in Bezug auf die Leistung bei RefCOCO/+/g für referierende Ausdrücke erreicht und die Überlegenheit der Verwendung von SAM mit früher visuell-sprachlicher Fusion unterstreicht. Darüber hinaus erreicht das vorgeschlagene EVF-SAM mit 1,32 Milliarden Parametern erstaunlich höhere Leistungsresultate, während es gleichzeitig fast 82 % der Parameter im Vergleich zu früheren SAM-Methoden basierend auf großen multimodalen Modellen reduziert.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp