vor 8 Monaten

Zusammenfassung

Die Generalized Referring Expression Segmentation (GRES) erweitert den Anwendungsbereich der klassischen RES, um auf mehrere Objekte in einer Ausdrucksweise zu verweisen oder leere Ziele zu identifizieren, die im Bild nicht vorhanden sind. Die GRES stellt Herausforderungen bei der Modellierung komplexer räumlicher Beziehungen der Instanzen im Bild und der Identifikation nicht existierender Referenten dar. Multimodale Large Language Models (MLLMs) haben kürzlich bei diesen komplizierten Vision-Language-Aufgaben enorme Fortschritte gemacht. Durch die Verbindung von Large Language Models (LLMs) und Vision-Modellen sind MLLMs in der Lage, Kontexte mit visuellen Eingaben zu verstehen. Ein Beispiel hierfür ist LISA, die ein spezielles [SEG]-Token verwendet, um einen Segmentierungsmaskendekoder wie SAM zur Unterstützung von MLLMs bei der RES-Aufgabe zu aktivieren. Dennoch bleiben bestehende Lösungen für GRES unbefriedigend, da aktuelle Segmentierungs-MLLMs Fälle nicht korrekt behandeln können, in denen Benutzer möglicherweise auf mehrere Subjekte in einem einzelnen Prompt verweisen oder Beschreibungen liefern, die mit keinem Bildziel übereinstimmen. In dieser Arbeit schlagen wir das Generalized Segmentation Vision Assistant (GSVA) vor, um diese Lücke zu schließen. Insbesondere wendet GSVA das [SEG]-Token erneut an, um das Segmentierungsmodell zur gleichzeitigen Unterstützung mehrerer Maskenreferenzen anzuleiten und lernt innovativ, ein [REJ]-Token zu generieren, um explizit leere Ziele abzulehnen. Experimente bestätigen die Effektivität von GSVA bei der Lösung des GRES-Problems und markieren eine bemerkenswerte Verbesserung sowie einen neuen Rekord auf dem GRES-Benchmark-Datensatz gRefCOCO. GSVA beweist zudem seine Wirksamkeit bei verschiedenen klassischen Referring-Segmentation- und Verständnisaufgaben.

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Multimodal

Semantische Segmentierung

Zhuofan Xia* Dongchen Han* Yizeng Han Xuran Pan Shiji Song Gao Huang†

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 8 Monaten

Multimodal

Semantische Segmentierung

Zhuofan Xia* Dongchen Han* Yizeng Han Xuran Pan Shiji Song Gao Huang†

Zusammenfassung

Quell-PDF Code anzeigen

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

GSVA: Verallgemeinerte Segmentierung durch multimodale große Sprachmodelle

Zhuofan Xia* Dongchen Han* Yizeng Han Xuran Pan Shiji Song Gao Huang†

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

GSVA: Verallgemeinerte Segmentierung durch multimodale große Sprachmodelle

Zhuofan Xia* Dongchen Han* Yizeng Han Xuran Pan Shiji Song Gao Huang†

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

GSVA: Verallgemeinerte Segmentierung durch multimodale große Sprachmodelle

Zhuofan Xia* Dongchen Han* Yizeng Han Xuran Pan Shiji Song Gao Huang†

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters