Sichere Selbstverfeinerung für Transformer-basierte Domänenanpassung

Unsupervised Domain Adaptation (UDA) zielt darauf ab, eine labelreiche Quelldomäne zu nutzen, um Aufgaben auf einer verwandten, aber unlabeled Zieldomäne zu lösen. Dies stellt eine herausfordernde Aufgabe dar, insbesondere wenn zwischen Quell- und Zieldomäne eine große Domänenlücke besteht. In diesem Paper stellen wir eine neuartige Lösung namens SSRT (Safe Self-Refinement for Transformer-based Domain Adaptation) vor, die in zweifacher Hinsicht Verbesserungen erzielt. Erstens, inspiriert durch den Erfolg von Vision Transformers bei verschiedenen visuellen Aufgaben, integrieren wir in SSRT einen Transformer-Backbone. Wir stellen fest, dass die Kombination aus Vision Transformer und einfacher adversarialer Adaptation die bisher besten Ergebnisse, die auf Convolutional Neural Networks (CNNs) basieren, auf dem anspruchsvollen DomainNet-Benchmark übertrifft und somit eine starke übertragbare Merkmalsdarstellung demonstriert. Zweitens, um das Risiko eines Modellkollapses zu verringern und die Effektivität des Wissenstransfers zwischen Domänen mit großer Lücke zu verbessern, schlagen wir eine Safe Self-Refinement-Strategie vor. Konkret nutzt SSRT Vorhersagen von gestörten Daten aus der Zieldomäne, um das Modell zu verfeinern. Da der Kapazitätsgrad eines Vision Transformers groß ist und die Vorhersagen in solch anspruchsvollen Aufgaben oft verrauscht sein können, wurde ein sicheres Trainingsmechanismus entwickelt, der die Lernkonfiguration adaptiv anpasst. Umfassende Evaluierungen werden auf mehreren weit verbreiteten UDA-Benchmarks durchgeführt, wobei SSRT konsistent die besten Leistungen erzielt – inklusive 85,43 % auf Office-Home, 88,76 % auf VisDA-2017 und 45,2 % auf DomainNet.