vor 17 Tagen

SeMask: Semantisch maskierte Transformers für die semantische Segmentierung

Jitesh Jain, Anukriti Singh, Nikita Orlov, Zilong Huang, Jiachen Li, Steven Walton, Humphrey Shi

Abstract

Die Feinabstimmung eines vortrainierten Backbone-Moduls im Encoder-Teil eines Bild-Transformer-Netzwerks stellt traditionell die gängige Herangehensweise für die semantische Segmentierung dar. Allerdings lässt dieser Ansatz den semantischen Kontext, den ein Bild während des Kodierungsprozesses bereitstellt, unberücksichtigt. In dieser Arbeit wird argumentiert, dass die Einbeziehung semantischer Informationen des Bildes in vortrainierte hierarchische Transformer-basierte Backbones während der Feinabstimmung die Leistung erheblich verbessert. Um dies zu erreichen, schlagen wir SeMask vor – einen einfachen und effektiven Rahmen, der durch eine semantische Aufmerksamkeitsoperation semantische Informationen in den Encoder integriert. Zudem nutzen wir während des Trainings einen leichten semantischen Decoder, um Supervision für die intermediären semantischen Prior-Karten in jeder Stufe bereitzustellen. Unsere Experimente zeigen, dass die Einbeziehung semantischer Prior-Informationen die Leistung etablierter hierarchischer Encoder mit nur geringfügig erhöhtem FLOPs-Aufwand verbessert. Wir liefern empirische Beweise, indem wir SeMask in Swin Transformer- und Mix Transformer-Backbones als Encoder integrieren und diese mit verschiedenen Decodern kombinieren. Unser Ansatz erreicht eine neue State-of-the-Art-Leistung von 58,25 % mIoU auf dem ADE20K-Datensatz und Verbesserungen um über 3 % im mIoU-Maßstab auf dem Cityscapes-Datensatz. Der Quellcode und die Checkpoints sind öffentlich unter https://github.com/Picsart-AI-Research/SeMask-Segmentation verfügbar.