HyperAIHyperAI

Command Palette

Search for a command to run...

Lawin Transformer: Verbesserung der semantischen Segmentierung durch Transformer mit multi-skalaren Darstellungen mittels Large Window Attention

Haotian Yan Chuang Zhang Ming Wu

Zusammenfassung

Mehrskalige Darstellungen sind entscheidend für die semantische Segmentierung. Die Forschungsgemeinschaft hat in den letzten Jahren eine florierende Entwicklung von semantischen Segmentierungsalgorithmen auf Basis von Faltungsneuralen Netzen (CNN) beobachtet, die mehrskalige kontextuelle Informationen effektiv nutzen. Angeregt durch die herausragende Leistung von Vision-Transformern (ViT) bei der Bildklassifikation wurden kürzlich mehrere semantische Segmentierungs-ViT vorgestellt, die zwar beeindruckende Ergebnisse erzielen, jedoch oft mit hohem Rechenaufwand einhergehen. In diesem Artikel gelingt es uns, mehrskalige Darstellungen effizient in semantische Segmentierungs-ViT mittels eines Fenster-Attention-Mechanismus einzuführen und dabei sowohl die Leistung als auch die Effizienz weiter zu verbessern. Dazu führen wir den sogenannten Large Window Attention ein, der es dem lokalen Fenster ermöglicht, eine größere Kontextregion abzurufen, dabei jedoch nur einen geringen zusätzlichen Rechenaufwand verursacht. Durch die Anpassung des Verhältnisses zwischen Kontext- und Abfragbereich können wir den Large Window Attention so gestalten, dass er kontextuelle Informationen auf mehreren Skalen erfassen kann. Zudem integrieren wir den Architekturansatz des Spatial Pyramid Pooling (SPP) mit dem Large Window Attention, wodurch ein neuartiger Decoder entsteht, den wir als Large Window Attention Spatial Pyramid Pooling (LawinASPP) bezeichnen. Unser resultierender Transformer, der Lawin Transformer, besteht aus einem effizienten hierarchischen Vision-Transformer (HVT) als Encoder und einem LawinASPP als Decoder. Experimentelle Ergebnisse zeigen, dass der Lawin Transformer gegenüber bestehenden Methoden eine verbesserte Effizienz bietet. Zudem erreicht er neue SOTA-Ergebnisse auf den Datensätzen Cityscapes (84,4 % mIoU), ADE20K (56,2 % mIoU) und COCO-Stuff. Der Quellcode wird unter https://github.com/yan-hao-tian/lawin veröffentlicht.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Lawin Transformer: Verbesserung der semantischen Segmentierung durch Transformer mit multi-skalaren Darstellungen mittels Large Window Attention | Paper | HyperAI