Multi-Scale High-Resolution Vision Transformer für die semantische Segmentierung

Vision Transformers (ViTs) haben sich im Vergleich zu convolutional neural network (CNN)-basierten Modellen durch überlegene Leistung bei Aufgaben des maschinellen Sehens etabliert. Allerdings sind ViTs hauptsächlich für die Bildklassifikation konzipiert und erzeugen einskalige, niedrigauflösende Darstellungen, was dichte Vorhersageaufgaben wie die semantische Segmentierung für ViTs herausfordernd macht. Daher stellen wir HRViT vor, das ViTs dahingehend verbessert, semantisch reiche und räumlich präzise mehrskalige Darstellungen zu lernen, indem hochauflösende, mehrästige Architekturen mit ViTs integriert werden. Die Balance zwischen Modellleistung und Effizienz von HRViT wird durch verschiedene Co-Optimierungstechniken für Zweig-Blöcke erreicht. Insbesondere untersuchen wir heterogene Zweig-Designs, reduzieren die Redundanz in linearen Schichten und erweitern den Attention-Block durch erhöhte Ausdruckskraft. Diese Ansätze ermöglichen es HRViT, die Pareto-Grenze von Leistung und Effizienz bei der semantischen Segmentierung auf ein neues Niveau zu heben, wie unsere Evaluierungsergebnisse auf ADE20K und Cityscapes belegen. HRViT erreicht 50,20 % mIoU auf ADE20K und 83,16 % mIoU auf Cityscapes, wobei die Leistung die state-of-the-art-Backbones MiT und CSWin mit einer durchschnittlichen Verbesserung von +1,78 mIoU, 28 % weniger Parametern und 21 % geringeren FLOPs übertrifft. Dies unterstreicht das Potenzial von HRViT als leistungsfähiger Vision-Backbone für die semantische Segmentierung.