HyperAIHyperAI
vor 4 Monaten

SegViTv2: Effiziente und kontinuierliche semantische Segmentierung mit einfachen Vision-Transformern erkunden

Zhang, Bowen ; Liu, Liyang ; Phan, Minh Hieu ; Tian, Zhi ; Shen, Chunhua ; Liu, Yifan
SegViTv2: Effiziente und kontinuierliche semantische Segmentierung mit einfachen Vision-Transformern erkunden
Abstract

Dieses Papier untersucht die Fähigkeit von einfachen Vision Transformers (ViTs)zur semantischen Segmentierung unter Verwendung des Encoder-Decoder-Frameworks und stellt\textbf{SegViTv2} vor. In dieser Studie führen wir ein neues Attention-to-Mask (\atm)-Modul ein,um einen leichten Decoder zu entwerfen, der für einfache ViTs effektiv ist. Das vorgeschlageneATM konvertiert die globale Aufmerksamkeitskarte in semantische Masken für hochwertigeSegmentierungsergebnisse. Unser Decoder übertrifft den weit verbreiteten Decoder UPerNet beiverschiedenen ViT-Backbones, während er nur etwa $5\%$ der Rechenaufwandskosten verbraucht.Für den Encoder adressieren wir die Bedenken bezüglich des relativ hohen Rechenaufwands inden auf ViT basierenden Encodern und schlagen eine \emph{Shrunk++}-Struktur vor, die Kantenbewussteabfragebasierte Abtastratenreduktion (Edge-Aware Query-Based Down-sampling, EQD) undabfragebasierte Auftastratensteigerung (Query-Based Upsampling, QU)-Module integriert. Die Shrunk++-Struktur reduziert den Rechenaufwand des Encoders um bis zu $50\%$, während sie gleichzeitig wettbewerbsfähige Leistungen beibehält.Des Weiteren schlagen wir vor, SegViT für kontinuierliche semantische Segmentierung anzupassen,was fast vollständig das Vergessen bereits gelernten Wissens vermeidet. Experimente zeigen,dass unser vorgeschlagener SegViTv2 drei weit verbreitete Benchmarks einschließlich der Datensätze ADE20k,COCO-Stuff-10k und PASCAL-Context übertrifft. Der Code ist über den folgenden Link verfügbar:\url{https://github.com/zbwxp/SegVit}.