HyperAIHyperAI

Command Palette

Search for a command to run...

LAVT: Sprachbewusster Vision-Transformer für die referenzbasierte Bildsegmentierung

Yang Zhao ; Wang Jiaqi ; Tang Yansong ; Chen Kai ; Zhao Hengshuang ; Torr Philip H. S.

Zusammenfassung

Die referentielle Bildsegmentierung ist eine grundlegende Aufgabe im Bereich Vision-Language, die das Ziel verfolgt, ein Objekt, auf das sich eine natürlichsprachliche Ausdrucksweise bezieht, aus einem Bild zu segmentieren. Eine der Hauptausforderungen bei dieser Aufgabe besteht darin, den referentiellen Ausdruck zur Hervorhebung relevanter Positionen im Bild zu nutzen. Ein Paradigma zur Bewältigung dieses Problems ist die Nutzung eines leistungsfähigen visuellsprachlichen ("cross-modal") Decoders, um unabhängig voneinander aus einem Vision-Encoder und einem Language-Encoder extrahierte Merkmale zu fusionieren. Neuere Methoden haben in diesem Paradigma durch die Verwendung von Transformers als cross-modalen Decodern bemerkenswerte Fortschritte gemacht, parallel zum überwältigenden Erfolg von Transformers in vielen anderen Vision-Language-Aufgaben.In dieser Arbeit wird jedoch ein anderer Ansatz verfolgt: Wir zeigen, dass durch die frühe Fusion linguistischer und visueller Merkmale in den Zwischenschichten eines Vision-Transformer-Encodernetzwerks erheblich bessere cross-modale Anpassungen erreicht werden können. Durch die Durchführung der cross-modalen Merkmalsfusion während des Stages der visuellen Merkmalsextraktion können wir die bewährte Fähigkeit des Transformer-Encoders zur Modellierung von Korrelationen nutzen, um hilfreichen multimodalen Kontext freizulegen. Auf diese Weise lassen sich genaue Segmentierungsresultate mit einem leichtgewichtigen Maskenprädiktor direkt erzielen. Ohne zusätzliche Komplikationen übertreffen unsere Methoden die bisher besten Ansätze auf RefCOCO, RefCOCO+ und G-Ref deutlich.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp