vor 2 Monaten

Vision-bewusste Textmerkmale in der referenzbasierten Bildsegmentierung: Von der Objektverstehens zu dem Kontextverstehens

Hai Nguyen-Truong; E-Ro Nguyen; Tuan-Anh Vu; Minh-Triet Tran; Binh-Son Hua; Sai-Kit Yeung

Abstract

Die referenzielle Bildsegmentierung ist eine anspruchsvolle Aufgabe, die das Erstellen von segmentierten Pixelmasken auf Basis natürlicher Sprachbeschreibungen umfasst. Die Komplexität dieser Aufgabe steigt mit der Verwickeltheit der bereitgestellten Sätze. Bestehende Methoden haben sich bisher hauptsächlich auf visuelle Merkmale gestützt, um die Segmentierungsmasken zu generieren, während textuelle Merkmale als unterstützende Komponenten behandelt wurden. Dieses untereinschlägige Nutzen des Textverständnisses begrenzt jedoch die Fähigkeit des Modells, die gegebenen Ausdrücke vollständig zu erfassen. In dieser Arbeit schlagen wir ein neues Framework vor, das sich speziell auf die Objekt- und Kontextkomprehension konzentriert und durch visionsempfindliche Textmerkmale (Vision-Aware Text Features) inspiriert ist. Zunächst führen wir ein CLIP-Vorwissenmodul ein, um das Hauptobjekt der Interesse zu lokalisieren und den Objekt-Heatmap in den Abfrageinitialisierungsprozess einzubetten. Anschließend schlagen wir eine Kombination aus zwei Komponenten vor: dem kontextuellen multimodalen Dekoder und der Bedeutungskonsistenzbedingung (Meaning Consistency Constraint), um die kohärente und konsistente Interpretation sprachlicher Hinweise weiter zu verbessern, indem man das aus dem Bild gewonnene Kontextverständnis nutzt. Unsere Methode erzielt erhebliche Leistungsverbesserungen auf drei Benchmark-Datensätzen: RefCOCO, RefCOCO+ und G-Ref. Projektseite: \url{https://vatex.hkustvgd.com/}.