HyperAIHyperAI
vor 8 Tagen

Patch-Mix Transformer für unsupervised Domain Adaptation: Ein Spielperspektive

Jinjing Zhu, Haotian Bai, Lin Wang
Patch-Mix Transformer für unsupervised Domain Adaptation: Ein Spielperspektive
Abstract

In jüngster Zeit wurden erhebliche Anstrengungen unternommen, um den Vision Transformer (ViT) für die anspruchsvolle Aufgabe der unsupervisierten Domänenanpassung (Unsupervised Domain Adaptation, UDA) zu nutzen. Typischerweise wird dabei die Cross-Attention-Struktur im ViT direkt zur Domänenanpassung herangezogen. Allerdings hängt die Leistungsfähigkeit der Cross-Attention stark von der Qualität der Pseudolabels für die Zielproben ab, wodurch ihre Wirksamkeit abnimmt, wenn der Domänenunterschied groß wird. Wir lösen dieses Problem aus einer Spieltheorie-Perspektive heraus mit dem vorgeschlagenen Modell PMTrans, das Quelle und Ziel domäne über eine Zwischendomäne verbindet. Konkret stellen wir ein neuartiges, auf ViT basierendes Modul namens PatchMix vor, das effektiv eine Zwischendomäne – d. h. eine Wahrscheinlichkeitsverteilung – aufbaut, indem es lernt, Teile (Patches) aus beiden Domänen basierend auf spieltheoretischen Modellen zu wählen. Auf diese Weise lernt PatchMix, Patches aus Quell- und Ziel-Domäne zu mischen, um die Kreuzentropie (Cross Entropy, CE) zu maximieren, während gleichzeitig zwei semi-supervised Mixup-Verluste im Merkmals- und Label-Raum genutzt werden, um diese zu minimieren. Dadurch interpretieren wir den Prozess der UDA als ein Min-Max-CE-Spiel mit drei Spielern – dem Merkmalsextrahierer, dem Klassifikator und PatchMix – mit dem Ziel, die Nash-Gleichgewichte zu finden. Zudem nutzen wir Aufmerksamkeitskarten aus dem ViT, um die Labels jedes Patches entsprechend ihrer Bedeutung neu zu gewichten, was die Erzeugung von dominanzdiskriminativen Merkmalsdarstellungen ermöglicht. Wir führen umfangreiche Experimente auf vier Benchmark-Datensätzen durch, und die Ergebnisse zeigen, dass PMTrans die state-of-the-art (SoTA)-Methoden auf Basis von ViT und CNN signifikant übertrifft: um +3,6 % auf Office-Home, +1,4 % auf Office-31 und +17,7 % auf DomainNet.