Command Palette
Search for a command to run...
TransAdapter: Vision Transformer für featurezentrierte unsupervised Domain Adaptation
TransAdapter: Vision Transformer für featurezentrierte unsupervised Domain Adaptation
A. Enes Doruk Erhan Oztop Hasan F. Ates
Zusammenfassung
Unsupervised Domain Adaptation (UDA) zielt darauf ab, gelabelte Daten aus einer Quelldomäne zu nutzen, um Aufgaben in einer unlabeled Zieldomäne zu lösen, was oft durch erhebliche Domänenunterschiede erschwert wird. Traditionelle CNN-basierte Ansätze stoßen bei der vollständigen Erfassung komplexer Domänenbeziehungen an ihre Grenzen, was die Entwicklung hin zu Vision-Transformern wie dem Swin Transformer motiviert hat, die sich durch eine herausragende Fähigkeit zur Modellierung sowohl lokaler als auch globaler Abhängigkeiten auszeichnen. In dieser Arbeit präsentieren wir einen neuartigen UDA-Ansatz, der den Swin Transformer mit drei zentralen Modulen kombiniert. Ein Graph Domain Discriminator verbessert die Domänenanpassung, indem er durch Graph-Convolutionen inter-pixel-Beziehungen erfasst und mittels entropiebasierter Aufmerksamkeit Unterschiede zwischen Domänen differenziert. Ein adaptives Doppel-Aufmerksamkeitsmodul verbindet Windows- und verschobene Windows-Aufmerksamkeit mit dynamischer Neugewichtung, um langreichweitige und lokale Merkmale effektiv auszurichten. Schließlich modifiziert ein Cross-Feature-Transform die Swin-Transformer-Blöcke, um die Generalisierbarkeit über verschiedene Domänen hinweg zu verbessern. Umfangreiche Benchmark-Tests bestätigen die state-of-the-art-Leistung unserer vielseitigen Methode, die keine auf die Aufgabe zugeschnittenen Anpassungsmodulen erfordert und somit ihre Anpassungsfähigkeit an diverse Anwendungen unter Beweis stellt.