HyperAIHyperAI

Command Palette

Search for a command to run...

Darstellungstrennung für die semantische Segmentierung mit Vision-Transformern

Yuanduo Hong Huihui Pan Weichao Sun Xinghu Yu Huijun Gao

Zusammenfassung

Vision-Transformer (ViT) modellieren ein Bild als Folge von Patch-Teilen und eröffnen neue Paradigmen für die semantische Segmentierung. Wir präsentieren einen effizienten Ansatz zur Trennung von Repräsentationen auf lokaler Patch-Ebene und globaler Regionsebene für die semantische Segmentierung mit ViTs. Dieser Ansatz zielt speziell auf das charakteristische Überglättungsproblem von ViTs bei der semantischen Segmentierung ab und unterscheidet sich damit von den derzeit populären Paradigmen der Kontextmodellierung sowie den meisten bestehenden Verfahren, die die Stärken der Aufmerksamkeitsmechanismen verstärken. Zunächst führen wir ein entkoppeltes zweipfadiges Netzwerk ein, bei dem ein zusätzlicher Pfad lokale Patch-Diskrepanzen verstärkt und diese komplementär zu den globalen Repräsentationen der Transformer weiterleitet. Anschließend schlagen wir ein räumlich adaptives Trennmodul vor, um noch differenziertere tiefe Repräsentationen zu erzielen, sowie eine differenzierende Kreuz-Aufmerksamkeit, die durch neuartige Hilfsüberwachungen differenziertere Regionenrepräsentationen liefert. Die vorgeschlagenen Methoden erzielen beeindruckende Ergebnisse: 1) Bei Integration großer, unveränderter ViTs erreichen unsere Methoden neue SOTA-Leistungen auf fünf weit verbreiteten Benchmarks; 2) Unter Verwendung maskierter, vortrainierter, unveränderter ViTs erreichen wir eine mIoU von 68,9 % auf Pascal Context und setzen damit einen neuen Rekord; 3) Pyramiden-ViTs, die mit dem entkoppelten zweipfadigen Netzwerk kombiniert werden, überbieten sogar gut entworfene Hochauflösungs-ViTs auf Cityscapes; 4) Die verbesserten Repräsentationen durch unseren Ansatz weisen eine hervorragende Übertragbarkeit bei Bildern mit natürlichen Störungen auf. Die Quellcodes werden öffentlich verfügbar gemacht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp