HyperAIHyperAI
vor 11 Tagen

Mask Grounding für die Bezugsbildsegmentierung

Yong Xien Chng, Henry Zheng, Yizeng Han, Xuchong Qiu, Gao Huang
Mask Grounding für die Bezugsbildsegmentierung
Abstract

Bezugsbasierte Bildsegmentierung (Referring Image Segmentation, RIS) ist eine anspruchsvolle Aufgabe, bei der ein Algorithmus Objekte segmentieren muss, die durch freie sprachliche Ausdrücke angesprochen werden. Trotz erheblicher Fortschritte in den letzten Jahren leiden die meisten aktuellen State-of-the-Art-(SOTA)-Methoden weiterhin unter erheblichen Modaldifferenzen zwischen Sprache und Bild auf Pixel- und Wortebene. Diese Ansätze basieren im Allgemeinen 1) auf Satzebene gewonnenen sprachlichen Merkmalen zur Sprache-Bild-Ausrichtung und 2) verfügen über keinen expliziten Trainings-Feedback für feinabgestimmte visuelle Grundlage (visual grounding). Folglich zeigen sie eine schwache objektorientierte Korrespondenz zwischen visuellen und sprachlichen Merkmalen. Ohne gut fundierte Merkmale haben vorherige Methoden Schwierigkeiten, komplexe Ausdrücke zu verstehen, die eine starke Schlussfolgerung über Beziehungen zwischen mehreren Objekten erfordern, insbesondere wenn seltene oder mehrdeutige Satzbestandteile auftreten. Um diese Herausforderung zu meistern, führen wir eine neuartige Hilfsaufgabe namens Mask Grounding ein, die die visuelle Grundlage innerhalb der sprachlichen Merkmale erheblich verbessert, indem das Modell explizit darauf trainiert wird, feinabgestimmte Korrespondenzen zwischen maskierten Texttoken und ihren entsprechenden visuellen Objekten zu lernen. Mask Grounding kann direkt auf bestehende RIS-Methoden angewendet werden und bringt konsistent Verbesserungen. Darüber hinaus entwerfen wir zur ganzheitlichen Behandlung der Modaldifferenz eine cross-modale Ausrichtungsverlustfunktion sowie ein entsprechendes Ausrichtungsmodul. Diese Ergänzungen wirken synergistisch mit Mask Grounding. In Kombination mit allen diesen Techniken resultiert unsere umfassende Methode in MagNet (Mask-grounded Network), einem Architekturansatz, der auf drei zentralen Benchmarks (RefCOCO, RefCOCO+ und G-Ref) signifikant über vorherige Ansätze hinausweist und die Wirksamkeit unserer Methode zur Überwindung der aktuellen Grenzen von RIS-Algorithmen belegt. Unser Code und vortrainierte Gewichte werden veröffentlicht werden.

Mask Grounding für die Bezugsbildsegmentierung | Neueste Forschungsarbeiten | HyperAI