HyperAIHyperAI
vor 11 Tagen

Semantikbewusste Nachrichtenbroadcasting für effiziente unsupervisierte Domänenanpassung

Xin Li, Cuiling Lan, Guoqiang Wei, Zhibo Chen
Semantikbewusste Nachrichtenbroadcasting für effiziente unsupervisierte Domänenanpassung
Abstract

Der Vision Transformer hat ein großes Potenzial in einer Vielzahl von visuellen Aufgaben gezeigt. Allerdings leidet er unweigerlich unter einer schlechten Verallgemeinerungsfähigkeit, wenn während der Testphase eine Verteilungsverschiebung auftritt (d. h. bei Out-of-Distribution-Daten). Um dieses Problem zu mildern, schlagen wir eine neue Methode, Semantic-aware Message Broadcasting (SAMB), vor, die eine informativere und flexiblere Merkmalsausrichtung für die unüberwachte Domänenanpassung (UDA) ermöglicht. Insbesondere untersuchen wir das Aufmerksamkeitsmodul im Vision Transformer und stellen fest, dass der Ausrichtungsraum, der durch einen globalen Klassen-Token gebildet wird, nicht ausreichend flexibel ist: Er verarbeitet Informationen mit allen Bild-Token auf dieselbe Weise und ignoriert dabei die reiche Semantik verschiedener Bildregionen. In dieser Arbeit zielen wir darauf ab, die Reichhaltigkeit der Ausrichtungsmerkmale zu verbessern, indem wir eine semantikbewusste, adaptive Nachrichtenübertragung ermöglichen. Dazu führen wir eine Gruppe lernbarer Gruppentoken als Knoten ein, die globale Informationen aus allen Bild-Token aggregieren, wobei jedoch unterschiedliche Gruppentoken ermutigt werden, sich adaptiv auf die Nachrichtenübertragung zu unterschiedlichen semantischen Regionen zu konzentrieren. Auf diese Weise fördert unsere Nachrichtenübertragung, dass die Gruppentoken informativere und vielfältigere Informationen lernen, um eine effektive Domänenanpassung zu ermöglichen. Zudem untersuchen wir systematisch die Wirkung von adversarischer Merkmalsausrichtung (ADA) und selbstgestütztem Lernen auf Basis von Pseudolabels (PST) in der UDA. Wir stellen fest, dass eine einfache zweistufige Trainingsstrategie, die die Kooperation von ADA und PST nutzt, die Anpassungsfähigkeit des Vision Transformers weiter verbessern kann. Umfangreiche Experimente auf den Datensätzen DomainNet, OfficeHome und VisDA-2017 belegen die Wirksamkeit unserer Methode für die UDA.

Semantikbewusste Nachrichtenbroadcasting für effiziente unsupervisierte Domänenanpassung | Neueste Forschungsarbeiten | HyperAI