HyperAIHyperAI

Command Palette

Search for a command to run...

Vision-bewusste Textmerkmale in der referenzbasierten Bildsegmentierung: Von der Objektverstehens zu dem Kontextverstehens

Hai Nguyen-Truong E-Ro Nguyen* Tuan-Anh Vu Minh-Triet Tran Binh-Son Hua Sai-Kit Yeung

Zusammenfassung

Die referenzielle Bildsegmentierung ist eine anspruchsvolle Aufgabe, die das Erstellen von segmentierten Pixelmasken auf Basis natürlicher Sprachbeschreibungen umfasst. Die Komplexität dieser Aufgabe steigt mit der Verwickeltheit der bereitgestellten Sätze. Bestehende Methoden haben sich bisher hauptsächlich auf visuelle Merkmale gestützt, um die Segmentierungsmasken zu generieren, während textuelle Merkmale als unterstützende Komponenten behandelt wurden. Dieses untereinschlägige Nutzen des Textverständnisses begrenzt jedoch die Fähigkeit des Modells, die gegebenen Ausdrücke vollständig zu erfassen. In dieser Arbeit schlagen wir ein neues Framework vor, das sich speziell auf die Objekt- und Kontextkomprehension konzentriert und durch visionsempfindliche Textmerkmale (Vision-Aware Text Features) inspiriert ist. Zunächst führen wir ein CLIP-Vorwissenmodul ein, um das Hauptobjekt der Interesse zu lokalisieren und den Objekt-Heatmap in den Abfrageinitialisierungsprozess einzubetten. Anschließend schlagen wir eine Kombination aus zwei Komponenten vor: dem kontextuellen multimodalen Dekoder und der Bedeutungskonsistenzbedingung (Meaning Consistency Constraint), um die kohärente und konsistente Interpretation sprachlicher Hinweise weiter zu verbessern, indem man das aus dem Bild gewonnene Kontextverständnis nutzt. Unsere Methode erzielt erhebliche Leistungsverbesserungen auf drei Benchmark-Datensätzen: RefCOCO, RefCOCO+ und G-Ref. Projektseite: \url{https://vatex.hkustvgd.com/}.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Vision-bewusste Textmerkmale in der referenzbasierten Bildsegmentierung: Von der Objektverstehens zu dem Kontextverstehens | Paper | HyperAI