SegViT: Semantische Segmentierung mit einfachen Vision Transformers

Wir untersuchen die Fähigkeit von einfachen Vision Transformers (ViTs) für die semantische Segmentierung und stellen SegVit vor. Bisherige auf ViTs basierende Segmentierungsnetzwerke erlernen typischerweise eine pixelweise Darstellung aus der Ausgabe des ViT. Im Gegensatz dazu nutzen wir die grundlegende Komponente – die Aufmerksamkeitsmechanik –, um Segmentierungsmasken zu generieren. Konkret stellen wir das Attention-to-Mask (ATM)-Modul vor, bei dem die Ähnlichkeitskarten zwischen einer Menge lernbarer Klassen-Token und den räumlichen Merkmalskarten direkt in die Segmentierungsmasken überführt werden. Experimente zeigen, dass unser vorgeschlagenes SegVit mit dem ATM-Modul die Leistung seiner Konkurrenten mit einem herkömmlichen ViT-Backbone auf dem ADE20K-Datensatz übertrifft und auf den Datensätzen COCO-Stuff-10K und PASCAL-Context neue SOTA-Ergebnisse erzielt. Darüber hinaus schlagen wir query-basierte Down-Sampling (QD) und query-basierte Up-Sampling (QU) vor, um eine kompaktere Struktur – die sogenannte Shrunk-Struktur – zu realisieren, um die Rechenkosten des ViT-Backbones zu reduzieren. Mit der vorgeschlagenen Shrunk-Struktur kann das Modell bis zu 40 % Rechenoperationen einsparen, ohne die Wettbewerbsfähigkeit der Leistung einzubüßen.