Darstellungstrennung für die semantische Segmentierung mit Vision-Transformern

Vision-Transformer (ViT) modellieren ein Bild als Folge von Patch-Teilen und eröffnen neue Paradigmen für die semantische Segmentierung. Wir präsentieren einen effizienten Ansatz zur Trennung von Repräsentationen auf lokaler Patch-Ebene und globaler Regionsebene für die semantische Segmentierung mit ViTs. Dieser Ansatz zielt speziell auf das charakteristische Überglättungsproblem von ViTs bei der semantischen Segmentierung ab und unterscheidet sich damit von den derzeit populären Paradigmen der Kontextmodellierung sowie den meisten bestehenden Verfahren, die die Stärken der Aufmerksamkeitsmechanismen verstärken. Zunächst führen wir ein entkoppeltes zweipfadiges Netzwerk ein, bei dem ein zusätzlicher Pfad lokale Patch-Diskrepanzen verstärkt und diese komplementär zu den globalen Repräsentationen der Transformer weiterleitet. Anschließend schlagen wir ein räumlich adaptives Trennmodul vor, um noch differenziertere tiefe Repräsentationen zu erzielen, sowie eine differenzierende Kreuz-Aufmerksamkeit, die durch neuartige Hilfsüberwachungen differenziertere Regionenrepräsentationen liefert. Die vorgeschlagenen Methoden erzielen beeindruckende Ergebnisse: 1) Bei Integration großer, unveränderter ViTs erreichen unsere Methoden neue SOTA-Leistungen auf fünf weit verbreiteten Benchmarks; 2) Unter Verwendung maskierter, vortrainierter, unveränderter ViTs erreichen wir eine mIoU von 68,9 % auf Pascal Context und setzen damit einen neuen Rekord; 3) Pyramiden-ViTs, die mit dem entkoppelten zweipfadigen Netzwerk kombiniert werden, überbieten sogar gut entworfene Hochauflösungs-ViTs auf Cityscapes; 4) Die verbesserten Repräsentationen durch unseren Ansatz weisen eine hervorragende Übertragbarkeit bei Bildern mit natürlichen Störungen auf. Die Quellcodes werden öffentlich verfügbar gemacht.