HyperAIHyperAI

Command Palette

Search for a command to run...

GSVA: Verallgemeinerte Segmentierung durch multimodale große Sprachmodelle

Zhuofan Xia* Dongchen Han* Yizeng Han Xuran Pan Shiji Song Gao Huang†

Zusammenfassung

Die Generalized Referring Expression Segmentation (GRES) erweitert den Anwendungsbereich der klassischen RES, um auf mehrere Objekte in einer Ausdrucksweise zu verweisen oder leere Ziele zu identifizieren, die im Bild nicht vorhanden sind. Die GRES stellt Herausforderungen bei der Modellierung komplexer räumlicher Beziehungen der Instanzen im Bild und der Identifikation nicht existierender Referenten dar. Multimodale Large Language Models (MLLMs) haben kürzlich bei diesen komplizierten Vision-Language-Aufgaben enorme Fortschritte gemacht. Durch die Verbindung von Large Language Models (LLMs) und Vision-Modellen sind MLLMs in der Lage, Kontexte mit visuellen Eingaben zu verstehen. Ein Beispiel hierfür ist LISA, die ein spezielles [SEG]-Token verwendet, um einen Segmentierungsmaskendekoder wie SAM zur Unterstützung von MLLMs bei der RES-Aufgabe zu aktivieren. Dennoch bleiben bestehende Lösungen für GRES unbefriedigend, da aktuelle Segmentierungs-MLLMs Fälle nicht korrekt behandeln können, in denen Benutzer möglicherweise auf mehrere Subjekte in einem einzelnen Prompt verweisen oder Beschreibungen liefern, die mit keinem Bildziel übereinstimmen. In dieser Arbeit schlagen wir das Generalized Segmentation Vision Assistant (GSVA) vor, um diese Lücke zu schließen. Insbesondere wendet GSVA das [SEG]-Token erneut an, um das Segmentierungsmodell zur gleichzeitigen Unterstützung mehrerer Maskenreferenzen anzuleiten und lernt innovativ, ein [REJ]-Token zu generieren, um explizit leere Ziele abzulehnen. Experimente bestätigen die Effektivität von GSVA bei der Lösung des GRES-Problems und markieren eine bemerkenswerte Verbesserung sowie einen neuen Rekord auf dem GRES-Benchmark-Datensatz gRefCOCO. GSVA beweist zudem seine Wirksamkeit bei verschiedenen klassischen Referring-Segmentation- und Verständnisaufgaben.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
GSVA: Verallgemeinerte Segmentierung durch multimodale große Sprachmodelle | Paper | HyperAI