HyperAIHyperAI

Command Palette

Search for a command to run...

Ein re-parametrisierter Vision Transformer (ReVT) für domainspezifische semantische Segmentierung

Jan-Aike Termöhlen Timo Bartels Tim Fingscheidt

Zusammenfassung

Die Aufgabe der semantischen Segmentierung erfordert, dass ein Modell jedem Pixel eines Bildes eine semantische Bezeichnung zuweist. Allerdings verschlechtert sich die Leistung solcher Modelle, wenn sie in einem bisher unbekannten Datenumfeld eingesetzt werden, das sich in seiner Datenverteilung vom Trainingsumfeld unterscheidet. Wir präsentieren einen neuen, auf Datenaugmentation basierenden Ansatz zur Domänenverallgemeinerung für die semantische Segmentierung, der einen nachträglich reparametrisierten Vision Transformer (ReVT) mit gewichteter Durchschnittsbildung mehrerer Modelle nach dem Training nutzt. Wir evaluieren unseren Ansatz an mehreren Benchmark-Datensätzen und erreichen eine state-of-the-art mIoU-Leistung von 47,3 % (Vorgängerarbeit: 46,3 %) für kleine Modelle sowie von 50,1 % (Vorgängerarbeit: 47,8 %) für mittelgroße Modelle auf üblichen Benchmark-Datensätzen. Gleichzeitig benötigt unser Verfahren weniger Parameter und erreicht eine höhere Bildwiederholungsrate als die beste bisherige Methode. Zudem ist es einfach zu implementieren und fügt im Gegensatz zu Netzwerk-Ensembles während der Inferenz keinerlei zusätzliche Rechenaufwände hinzu.


KI mit KI entwickeln

Von der Idee bis zum Launch – beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und bestem GPU-Preis.

KI-gestütztes kollaboratives Programmieren
Sofort einsatzbereite GPUs
Die besten Preise

HyperAI Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp