HyperAIHyperAI
vor 7 Tagen

Swin Transformer: Hierarchischer Vision Transformer unter Verwendung verschobener Fenster

Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, Baining Guo
Swin Transformer: Hierarchischer Vision Transformer unter Verwendung verschobener Fenster
Abstract

Diese Arbeit präsentiert einen neuen Vision-Transformer namens Swin Transformer, der als allgemeiner Backbone für Computer Vision geeignet ist. Die Herausforderungen bei der Anpassung von Transformer-Modellen von der Sprache auf die Bildverarbeitung ergeben sich aus den Unterschieden zwischen beiden Domänen, wie beispielsweise den großen Skalenunterschieden visueller Entitäten sowie der hohen Auflösung von Pixeln in Bildern im Vergleich zu Wörtern in Texten. Um diese Unterschiede zu bewältigen, schlagen wir einen hierarchischen Transformer vor, dessen Repräsentation mittels \textbf{S}hifted \textbf{win}dows berechnet wird. Das Konzept der verschobenen Fenster ermöglicht eine höhere Effizienz, indem die Self-Attention-Berechnung auf nicht überlappende lokale Fenster beschränkt wird, gleichzeitig aber auch Verbindungen zwischen verschiedenen Fenstern erlaubt werden. Diese hierarchische Architektur bietet die Flexibilität, auf verschiedenen Skalen zu modellieren, und weist eine lineare Berechnungskomplexität bezüglich der Bildgröße auf. Diese Eigenschaften machen den Swin Transformer für eine breite Palette von Vision-Aufgaben geeignet, darunter Bildklassifikation (87,3 % Top-1-Accuracy auf ImageNet-1K) sowie dichte Vorhersage-Aufgaben wie Objektdetektion (58,7 Box AP und 51,1 Mask AP auf COCO test-dev) und semantische Segmentierung (53,5 mIoU auf ADE20K val). Seine Leistung übertrifft die vorherige State-of-the-Art deutlich um +2,7 Box AP und +2,6 Mask AP auf COCO sowie +3,2 mIoU auf ADE20K und demonstriert das Potenzial von Transformer-basierten Modellen als Backbones für Computer Vision. Die hierarchische Gestaltung und der Ansatz mit verschobenen Fenstern erweisen sich zudem als vorteilhaft auch für all-MLP-Architekturen. Der Quellcode und die Modelle sind öffentlich unter ~\url{https://github.com/microsoft/Swin-Transformer} verfügbar.

Swin Transformer: Hierarchischer Vision Transformer unter Verwendung verschobener Fenster | Neueste Forschungsarbeiten | HyperAI