HyperAIHyperAI
vor 17 Tagen

Neuüberlegung der semantischen Segmentierung aus einer Sequenz-zu-Sequenz-Perspektive mit Transformers

Sixiao Zheng, Jiachen Lu, Hengshuang Zhao, Xiatian Zhu, Zekun Luo, Yabiao Wang, Yanwei Fu, Jianfeng Feng, Tao Xiang, Philip H.S. Torr, Li Zhang
Neuüberlegung der semantischen Segmentierung aus einer Sequenz-zu-Sequenz-Perspektive mit Transformers
Abstract

Die meisten aktuellen Methoden zur semantischen Segmentierung setzen auf ein vollständig konvolutionales Netzwerk (FCN) mit einer Encoder-Decoder-Architektur. Der Encoder reduziert schrittweise die räumliche Auflösung und lernt dabei abstraktere bzw. semantischere visuelle Konzepte mit größeren Empfindlichkeitsfeldern. Da die Modellierung von Kontext für die Segmentierung entscheidend ist, konzentrieren sich die jüngsten Fortschritte auf die Erweiterung des Empfindlichkeitsfelds mittels dilatierter oder atröser Konvolutionen oder durch die Integration von Aufmerksamkeitsmodulen. Die grundlegende Encoder-Decoder-Architektur des FCN bleibt jedoch unverändert. In diesem Artikel verfolgen wir einen alternativen Ansatz, indem wir die semantische Segmentierung als Aufgabe der Sequenz-zu-Sequenz-Vorhersage betrachten. Genauer gesagt setzen wir einen reinen Transformer (also ohne Konvolutionen und ohne Reduktion der Auflösung) ein, um ein Bild als Sequenz von Bildteilen zu kodieren. Da in jeder Schicht des Transformers der globale Kontext modelliert wird, kann dieser Encoder mit einem einfachen Decoder kombiniert werden, um ein leistungsstarkes Segmentierungsmodell zu bilden, das als SEgmentation TRansformer (SETR) bezeichnet wird. Ausführliche Experimente zeigen, dass SETR neue SOTA-Ergebnisse auf ADE20K (50,28 % mIoU), Pascal Context (55,83 % mIoU) erzielt und wettbewerbsfähige Ergebnisse auf Cityscapes erzielt. Insbesondere erreichen wir an dem Tag der Einreichung die erste Platzierung auf dem hochkompetitiven ADE20K-Testserver-Tableau.