vor 6 Monaten

Zusammenfassung

Mehrskalige Darstellungen sind entscheidend für die semantische Segmentierung. Die Forschungsgemeinschaft hat in den letzten Jahren eine florierende Entwicklung von semantischen Segmentierungsalgorithmen auf Basis von Faltungsneuralen Netzen (CNN) beobachtet, die mehrskalige kontextuelle Informationen effektiv nutzen. Angeregt durch die herausragende Leistung von Vision-Transformern (ViT) bei der Bildklassifikation wurden kürzlich mehrere semantische Segmentierungs-ViT vorgestellt, die zwar beeindruckende Ergebnisse erzielen, jedoch oft mit hohem Rechenaufwand einhergehen. In diesem Artikel gelingt es uns, mehrskalige Darstellungen effizient in semantische Segmentierungs-ViT mittels eines Fenster-Attention-Mechanismus einzuführen und dabei sowohl die Leistung als auch die Effizienz weiter zu verbessern. Dazu führen wir den sogenannten Large Window Attention ein, der es dem lokalen Fenster ermöglicht, eine größere Kontextregion abzurufen, dabei jedoch nur einen geringen zusätzlichen Rechenaufwand verursacht. Durch die Anpassung des Verhältnisses zwischen Kontext- und Abfragbereich können wir den Large Window Attention so gestalten, dass er kontextuelle Informationen auf mehreren Skalen erfassen kann. Zudem integrieren wir den Architekturansatz des Spatial Pyramid Pooling (SPP) mit dem Large Window Attention, wodurch ein neuartiger Decoder entsteht, den wir als Large Window Attention Spatial Pyramid Pooling (LawinASPP) bezeichnen. Unser resultierender Transformer, der Lawin Transformer, besteht aus einem effizienten hierarchischen Vision-Transformer (HVT) als Encoder und einem LawinASPP als Decoder. Experimentelle Ergebnisse zeigen, dass der Lawin Transformer gegenüber bestehenden Methoden eine verbesserte Effizienz bietet. Zudem erreicht er neue SOTA-Ergebnisse auf den Datensätzen Cityscapes (84,4 % mIoU), ADE20K (56,2 % mIoU) und COCO-Stuff. Der Quellcode wird unter https://github.com/yan-hao-tian/lawin veröffentlicht.

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Semantische Segmentierung

Transformer

Faltungsneuronales Netzwerk

Ansatz/Rahmenwerk

Computervision

Aufgabe

Haotian Yan Chuang Zhang Ming Wu

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

HyperAI

vor 6 Monaten

Semantische Segmentierung

Transformer

Faltungsneuronales Netzwerk

Ansatz/Rahmenwerk

Computervision

Aufgabe

Haotian Yan Chuang Zhang Ming Wu

Zusammenfassung

Quell-PDF

KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren

Sofort einsatzbereite GPUs

Die besten Preise

Erste Schritte Preise anzeigen

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates

Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen

Unterstützt von MailChimp

Command Palette

Lawin Transformer: Verbesserung der semantischen Segmentierung durch Transformer mit multi-skalaren Darstellungen mittels Large Window Attention

Haotian Yan Chuang Zhang Ming Wu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Lawin Transformer: Verbesserung der semantischen Segmentierung durch Transformer mit multi-skalaren Darstellungen mittels Large Window Attention

Haotian Yan Chuang Zhang Ming Wu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters

Command Palette

Lawin Transformer: Verbesserung der semantischen Segmentierung durch Transformer mit multi-skalaren Darstellungen mittels Large Window Attention

Haotian Yan Chuang Zhang Ming Wu

Zusammenfassung

KI mit KI entwickeln

HyperAI Newsletters