HyperAIHyperAI
vor 11 Tagen

SegFormer: Einfache und effiziente Gestaltung für die semantische Segmentierung mit Transformers

Enze Xie, Wenhai Wang, Zhiding Yu, Anima Anandkumar, Jose M. Alvarez, Ping Luo
SegFormer: Einfache und effiziente Gestaltung für die semantische Segmentierung mit Transformers
Abstract

Wir präsentieren SegFormer, einen einfachen, effizienten und dennoch leistungsfähigen Rahmen für semantische Segmentierung, der Transformer mit leichtgewichtigen Multilayer-Perceptron-(MLP)-Decodern vereint. SegFormer weist zwei herausragende Eigenschaften auf: 1) SegFormer basiert auf einem neuartigen hierarchisch strukturierten Transformer-Encoder, der mehrskalige Merkmale ausgibt. Er benötigt keine Positionscode-Informationen, wodurch das Problem der Interpolation von Positionscode vermieden wird, das bei abweichender Testauflösung im Vergleich zur Trainingsauflösung zu Leistungseinbußen führen kann. 2) SegFormer verzichtet auf komplexe Decoder. Der vorgeschlagene MLP-Decoder aggregiert Informationen aus verschiedenen Schichten und kombiniert damit sowohl lokale als auch globale Aufmerksamkeit, um leistungsfähige Darstellungen zu erzeugen. Wir zeigen, dass diese einfache und leichtgewichtige Architektur der Schlüssel für effiziente Segmentierung mittels Transformer ist. Wir skalieren unseren Ansatz erfolgreich aus, um eine Reihe von Modellen von SegFormer-B0 bis SegFormer-B5 zu erstellen, die gegenüber früheren Ansätzen deutlich bessere Leistung und Effizienz erzielen. So erreicht SegFormer-B4 beispielsweise eine mIoU von 50,3 % auf ADE20K mit nur 64 M Parametern – das Modell ist fünfmal kleiner und um 2,2 Prozentpunkte besser als die bisher beste Methode. Unser bestes Modell, SegFormer-B5, erreicht eine mIoU von 84,0 % auf dem Cityscapes-Validierungsset und zeigt hervorragende Robustheit im Zero-Shot-Setting auf Cityscapes-C. Der Quellcode wird unter github.com/NVlabs/SegFormer veröffentlicht.

SegFormer: Einfache und effiziente Gestaltung für die semantische Segmentierung mit Transformers | Neueste Forschungsarbeiten | HyperAI