HyperAIHyperAI
vor 17 Tagen

Ein re-parametrisierter Vision Transformer (ReVT) für domainspezifische semantische Segmentierung

Jan-Aike Termöhlen, Timo Bartels, Tim Fingscheidt
Ein re-parametrisierter Vision Transformer (ReVT) für domainspezifische semantische Segmentierung
Abstract

Die Aufgabe der semantischen Segmentierung erfordert, dass ein Modell jedem Pixel eines Bildes eine semantische Bezeichnung zuweist. Allerdings verschlechtert sich die Leistung solcher Modelle, wenn sie in einem bisher unbekannten Datenumfeld eingesetzt werden, das sich in seiner Datenverteilung vom Trainingsumfeld unterscheidet. Wir präsentieren einen neuen, auf Datenaugmentation basierenden Ansatz zur Domänenverallgemeinerung für die semantische Segmentierung, der einen nachträglich reparametrisierten Vision Transformer (ReVT) mit gewichteter Durchschnittsbildung mehrerer Modelle nach dem Training nutzt. Wir evaluieren unseren Ansatz an mehreren Benchmark-Datensätzen und erreichen eine state-of-the-art mIoU-Leistung von 47,3 % (Vorgängerarbeit: 46,3 %) für kleine Modelle sowie von 50,1 % (Vorgängerarbeit: 47,8 %) für mittelgroße Modelle auf üblichen Benchmark-Datensätzen. Gleichzeitig benötigt unser Verfahren weniger Parameter und erreicht eine höhere Bildwiederholungsrate als die beste bisherige Methode. Zudem ist es einfach zu implementieren und fügt im Gegensatz zu Netzwerk-Ensembles während der Inferenz keinerlei zusätzliche Rechenaufwände hinzu.