Kombination der inhärenten Kenntnisse von Vision-Sprache-Modellen mit unsupervisierter Domänenanpassung durch starke-Schwache-Führung

Unsupervised Domain Adaptation (UDA) zielt darauf ab, die aufwendige Datenannotation zu umgehen, indem ein beschriftetes Quelldatenset genutzt wird, um dessen Wissen auf ein ähnliches, jedoch unterschiedliches Ziel-Datenset zu übertragen. Gleichzeitig verfügen aktuelle Vision-Text-Modelle über bemerkenswerte Fähigkeiten zur Zero-Shot-Vorhersage. In dieser Arbeit kombinieren wir das durch UDA gewonnene Wissen mit dem inhärenten Wissen von Vision-Text-Modellen. Wir stellen ein stark-schwach-Leitungs-Lernverfahren vor, das Zero-Shot-Vorhersagen nutzt, um die Anpassung zwischen Quell- und Ziel-Datenset zu unterstützen. Für die starke Leitung erweitern wir das Quelldatenset um die zuverlässigsten Proben des Ziel-Datensets. Zudem setzen wir eine Knowledge-Distillation-Verlustfunktion als schwache Leitung ein. Die starke Leitung nutzt harte Labels, wird jedoch nur auf die zuverlässigsten Vorhersagen des Ziel-Datensets angewandt. Im Gegensatz dazu wird die schwache Leitung auf das gesamte Datenset angewendet, jedoch mit weichen Labels. Die schwache Leitung wird als Knowledge-Distillation-Verlust implementiert, wobei (verschobene) Zero-Shot-Vorhersagen verwendet werden. Wir zeigen, dass unsere Methode durch Techniken zur Prompt-Anpassung von Vision-Text-Modellen ergänzt und gestärkt wird. Wir führen Experimente und Ablationsstudien an drei Benchmarks (OfficeHome, VisDA und DomainNet) durch und erreichen eine bessere Leistung als aktuell beste Methoden. Zusätzlich belegen unsere Ablationsstudien die Beiträge der verschiedenen Komponenten unseres Algorithmus.