Segmenter: Transformer für die semantische Segmentierung

Die Segmentierung von Bildern ist oft auf Ebene einzelner Bildpatches mehrdeutig und erfordert kontextuelle Informationen, um zu einer Konsensbezeichnung zu gelangen. In diesem Artikel stellen wir Segmenter vor, ein Transformer-Modell für semantische Segmentierung. Im Gegensatz zu herkömmlichen Methoden auf Basis von Faltungen ermöglicht unser Ansatz bereits in der ersten Schicht und durchgängig im Netzwerk die Modellierung globaler Kontextinformationen. Wir bauen auf dem kürzlich vorgestellten Vision Transformer (ViT) auf und erweitern ihn für die semantische Segmentierung. Dazu nutzen wir die Ausgabeeinbettungen, die den Bildpatches entsprechen, und leiten aus diesen Einbettungen Klassenbezeichnungen mittels eines punktweisen linearen Dekoders oder eines Mask-Transformer-Dekoders ab. Wir nutzen vortrainierte Modelle, die für die Bildklassifikation entwickelt wurden, und zeigen, dass diese auf mittelgroßen Datensätzen für semantische Segmentierung feinabgestimmt werden können. Der lineare Dekoder liefert bereits hervorragende Ergebnisse, wobei die Leistung durch einen Mask-Transformer, der Klassenmasken generiert, weiter verbessert werden kann. Wir führen eine umfassende Ablationstudie durch, um die Auswirkung verschiedener Parameter zu analysieren; insbesondere zeigt sich, dass große Modelle sowie kleine Patchgrößen zu besserer Leistung führen. Segmenter erzielt exzellente Ergebnisse bei der semantischen Segmentierung: Es übertrifft den Stand der Technik sowohl auf den Datensätzen ADE20K als auch Pascal Context und ist auf Cityscapes konkurrenzfähig.