Lawin Transformer: Verbesserung der semantischen Segmentierung durch Transformer mit multi-skalaren Darstellungen mittels Large Window Attention

Mehrskalige Darstellungen sind entscheidend für die semantische Segmentierung. Die Forschungsgemeinschaft hat in den letzten Jahren eine florierende Entwicklung von semantischen Segmentierungsalgorithmen auf Basis von Faltungsneuralen Netzen (CNN) beobachtet, die mehrskalige kontextuelle Informationen effektiv nutzen. Angeregt durch die herausragende Leistung von Vision-Transformern (ViT) bei der Bildklassifikation wurden kürzlich mehrere semantische Segmentierungs-ViT vorgestellt, die zwar beeindruckende Ergebnisse erzielen, jedoch oft mit hohem Rechenaufwand einhergehen. In diesem Artikel gelingt es uns, mehrskalige Darstellungen effizient in semantische Segmentierungs-ViT mittels eines Fenster-Attention-Mechanismus einzuführen und dabei sowohl die Leistung als auch die Effizienz weiter zu verbessern. Dazu führen wir den sogenannten Large Window Attention ein, der es dem lokalen Fenster ermöglicht, eine größere Kontextregion abzurufen, dabei jedoch nur einen geringen zusätzlichen Rechenaufwand verursacht. Durch die Anpassung des Verhältnisses zwischen Kontext- und Abfragbereich können wir den Large Window Attention so gestalten, dass er kontextuelle Informationen auf mehreren Skalen erfassen kann. Zudem integrieren wir den Architekturansatz des Spatial Pyramid Pooling (SPP) mit dem Large Window Attention, wodurch ein neuartiger Decoder entsteht, den wir als Large Window Attention Spatial Pyramid Pooling (LawinASPP) bezeichnen. Unser resultierender Transformer, der Lawin Transformer, besteht aus einem effizienten hierarchischen Vision-Transformer (HVT) als Encoder und einem LawinASPP als Decoder. Experimentelle Ergebnisse zeigen, dass der Lawin Transformer gegenüber bestehenden Methoden eine verbesserte Effizienz bietet. Zudem erreicht er neue SOTA-Ergebnisse auf den Datensätzen Cityscapes (84,4 % mIoU), ADE20K (56,2 % mIoU) und COCO-Stuff. Der Quellcode wird unter https://github.com/yan-hao-tian/lawin veröffentlicht.