Prompt-basierte Verteilungsausrichtung für unüberwachte Domänenanpassung

In jüngster Zeit, trotz des beispiellosen Erfolgs großer vortrainierter visuell-sprachlicher Modelle (VLMs) auf einer Vielzahl von Downstream-Aufgaben, ist das praktische Problem der unsupervisierten Domänenanpassung (UDA) weiterhin nicht ausreichend erforscht. In dieser Arbeit demonstrieren wir erstmals experimentell, dass unsupervisierte VLMs die Verteilungsdisparität zwischen Quell- und Ziel-Domänen erheblich reduzieren können, was die Leistungsfähigkeit der UDA verbessert. Ein zentrales Hindernis bei der direkten Anwendung solcher Modelle auf Downstream-UDA-Aufgaben ist jedoch die Prompt-Engineering-Aufgabe, die eine Ausrichtung des domänenspezifischen Wissens zwischen Quell- und Ziel-Domäne erfordert, da die Leistung der UDA stark von einer domäneninvarianten Repräsentation abhängt. Um dieses Problem zu adressieren, schlagen wir eine Prompt-basierte Verteilungsanpassungsmethode (Prompt-based Distribution Alignment, PDA) vor, die domänenspezifisches Wissen in den Prompt-Lernprozess integriert. Konkret setzt PDA ein zweigeteiltes Prompt-Tuning-Paradigma ein, bestehend aus einer Basis- und einer Anpassungs-Branch. Die Basis-Branch konzentriert sich auf die Integration klassenbezogener Repräsentationen in die Prompts, um eine klare Unterscheidung zwischen verschiedenen Klassen sicherzustellen. Um die Domänenabweichung weiter zu minimieren, wird in der Anpassungs-Branch für sowohl die Quell- als auch die Ziel-Domäne jeweils ein Merkmalsbank-System aufgebaut, und wir führen eine bildgesteuerte Merkmalsanpassung (Image-guided Feature Tuning, IFT) ein, die den Eingabedaten ermöglicht, sich auf diese Merkmalsbanken zu konzentrieren. Dadurch werden selbstverstärkte und überdomänenhafte Merkmale effektiv in das Modell integriert. Auf diese Weise fördern sich die beiden Branches wechselseitig und verbessern die Anpassungsfähigkeit der VLMs für UDA. Wir führen umfangreiche Experimente auf drei Benchmark-Datensätzen durch und zeigen, dass unsere vorgeschlagene PDA-Methodik die derzeit beste Leistung erzielt. Der Quellcode ist unter https://github.com/BaiShuanghao/Prompt-based-Distribution-Alignment verfügbar.