HyperAIHyperAI
vor 2 Monaten

GSVA: Verallgemeinerte Segmentierung durch multimodale große Sprachmodelle

Xia, Zhuofan ; Han, Dongchen ; Han, Yizeng ; Pan, Xuran ; Song, Shiji ; Huang, Gao
GSVA: Verallgemeinerte Segmentierung durch multimodale große Sprachmodelle
Abstract

Die Generalized Referring Expression Segmentation (GRES) erweitert den Anwendungsbereich der klassischen RES, um auf mehrere Objekte in einer Ausdrucksweise zu verweisen oder leere Ziele zu identifizieren, die im Bild nicht vorhanden sind. Die GRES stellt Herausforderungen bei der Modellierung komplexer räumlicher Beziehungen der Instanzen im Bild und der Identifikation nicht existierender Referenten dar. Multimodale Large Language Models (MLLMs) haben kürzlich bei diesen komplizierten Vision-Language-Aufgaben enorme Fortschritte gemacht. Durch die Verbindung von Large Language Models (LLMs) und Vision-Modellen sind MLLMs in der Lage, Kontexte mit visuellen Eingaben zu verstehen. Ein Beispiel hierfür ist LISA, die ein spezielles [SEG]-Token verwendet, um einen Segmentierungsmaskendekoder wie SAM zur Unterstützung von MLLMs bei der RES-Aufgabe zu aktivieren. Dennoch bleiben bestehende Lösungen für GRES unbefriedigend, da aktuelle Segmentierungs-MLLMs Fälle nicht korrekt behandeln können, in denen Benutzer möglicherweise auf mehrere Subjekte in einem einzelnen Prompt verweisen oder Beschreibungen liefern, die mit keinem Bildziel übereinstimmen. In dieser Arbeit schlagen wir das Generalized Segmentation Vision Assistant (GSVA) vor, um diese Lücke zu schließen. Insbesondere wendet GSVA das [SEG]-Token erneut an, um das Segmentierungsmodell zur gleichzeitigen Unterstützung mehrerer Maskenreferenzen anzuleiten und lernt innovativ, ein [REJ]-Token zu generieren, um explizit leere Ziele abzulehnen. Experimente bestätigen die Effektivität von GSVA bei der Lösung des GRES-Problems und markieren eine bemerkenswerte Verbesserung sowie einen neuen Rekord auf dem GRES-Benchmark-Datensatz gRefCOCO. GSVA beweist zudem seine Wirksamkeit bei verschiedenen klassischen Referring-Segmentation- und Verständnisaufgaben.

GSVA: Verallgemeinerte Segmentierung durch multimodale große Sprachmodelle | Neueste Forschungsarbeiten | HyperAI