HyperAIHyperAI
vor 2 Monaten

Vision-Language Transformer und Abfragegenerierung für Referring Segmentation

Ding, Henghui ; Liu, Chang ; Wang, Suchen ; Jiang, Xudong
Vision-Language Transformer und Abfragegenerierung für Referring Segmentation
Abstract

In dieser Arbeit befassen wir uns mit der anspruchsvollen Aufgabe der referentiellen Segmentierung. Die Abfrageausdrücke in der referentiellen Segmentierung beschreiben in der Regel das Zielobjekt durch seine Beziehung zu anderen Objekten. Daher muss das Modell, um das gewünschte Objekt unter allen Instanzen im Bild zu identifizieren, ein ganzheitliches Verständnis des gesamten Bildes haben. Um dies zu erreichen, reformulieren wir die referentielle Segmentierung als ein direktes Aufmerksamkeitsproblem: die Region im Bild zu finden, auf die sich der sprachliche Abfrageausdruck am stärksten konzentriert. Wir führen Transformer und Multi-Head-Aufmerksamkeit ein, um ein Netzwerk mit einer Encoder-Decoder-Aufmerksamkeitsmechanismus-Architektur zu bauen, das das gegebene Bild mit dem sprachlichen Ausdruck "abfragt". Darüber hinaus schlagen wir ein Abfragegenerierungsmodul (Query Generation Module) vor, das mehrere Sätze von Abfragen mit unterschiedlichen Aufmerksamkeitsgewichten erzeugt, die verschiedene Interpretationen des sprachlichen Ausdrucks aus verschiedenen Perspektiven darstellen. Gleichzeitig, um den besten Weg unter diesen diversifizierten Interpretationen basierend auf visuellen Hinweisen zu finden, schlagen wir ein Abfrageausgleichsmodul (Query Balance Module) vor, das die Ausgabemerkmale dieser Abfragen adaptiv auswählt, um eine bessere Maskenerstellung zu ermöglichen. Ohne zusätzliche Komplexität ist unser Ansatz leichtgewichtig und erzielt konsistent neue Standarte in der Leistung auf drei referentiellen Segmentierungsdatensätzen: RefCOCO, RefCOCO+ und G-Ref. Unser Code ist unter https://github.com/henghuiding/Vision-Language-Transformer verfügbar.

Vision-Language Transformer und Abfragegenerierung für Referring Segmentation | Neueste Forschungsarbeiten | HyperAI