LAVT: Sprachbewusster Vision-Transformer für die referenzbasierte Bildsegmentierung

Die referentielle Bildsegmentierung ist eine grundlegende Aufgabe im Bereich Vision-Language, die das Ziel verfolgt, ein Objekt, auf das sich eine natürlichsprachliche Ausdrucksweise bezieht, aus einem Bild zu segmentieren. Eine der Hauptausforderungen bei dieser Aufgabe besteht darin, den referentiellen Ausdruck zur Hervorhebung relevanter Positionen im Bild zu nutzen. Ein Paradigma zur Bewältigung dieses Problems ist die Nutzung eines leistungsfähigen visuellsprachlichen ("cross-modal") Decoders, um unabhängig voneinander aus einem Vision-Encoder und einem Language-Encoder extrahierte Merkmale zu fusionieren. Neuere Methoden haben in diesem Paradigma durch die Verwendung von Transformers als cross-modalen Decodern bemerkenswerte Fortschritte gemacht, parallel zum überwältigenden Erfolg von Transformers in vielen anderen Vision-Language-Aufgaben.In dieser Arbeit wird jedoch ein anderer Ansatz verfolgt: Wir zeigen, dass durch die frühe Fusion linguistischer und visueller Merkmale in den Zwischenschichten eines Vision-Transformer-Encodernetzwerks erheblich bessere cross-modale Anpassungen erreicht werden können. Durch die Durchführung der cross-modalen Merkmalsfusion während des Stages der visuellen Merkmalsextraktion können wir die bewährte Fähigkeit des Transformer-Encoders zur Modellierung von Korrelationen nutzen, um hilfreichen multimodalen Kontext freizulegen. Auf diese Weise lassen sich genaue Segmentierungsresultate mit einem leichtgewichtigen Maskenprädiktor direkt erzielen. Ohne zusätzliche Komplikationen übertreffen unsere Methoden die bisher besten Ansätze auf RefCOCO, RefCOCO+ und G-Ref deutlich.