Verbesserung der Domänenanpassung durch Prompt-Gradient-Ausrichtung

Bisherige Methoden zur unüberwachten Domänenanpassung (Unsupervised Domain Adaptation, UDA) zielen oft darauf ab, einen domäneninvarianten Merkmalsextraktor zu trainieren, was das Lernen ausreichend differenzierender Merkmale jedoch beeinträchtigen kann. Um diesem Problem entgegenzuwirken, setzen verschiedene Ansätze auf Prompt-Lernen, um die Stärke großer, vortrainierter vision-sprachlicher Modelle auszunutzen, um sowohl domäneninvariante als auch domänenspezifische Merkmale durch eine Kombination aus domänenunabhängigen und domänenspezifischen, lernbaren Prompts zu erlernen. In diesen Arbeiten werden typischerweise Invarianzbedingungen in den Repräsentations-, Ausgabespace oder dem Prompt-Raum durchgesetzt, um solche Prompts zu lernen. Im Gegensatz dazu formulieren wir die UDA als ein mehrzieloptimierungsproblem, bei dem jedes Ziel durch eine domänenspezifische Verlustfunktion repräsentiert wird. Unter diesem neuen Rahmen schlagen wir vor, die pro-Ziel-Gradienten auszurichten, um Konsens zwischen den Zielen zu fördern. Zusätzlich wird zur Vermeidung von Überanpassung bei der Feinabstimmung dieser tiefen neuronalen Architektur die Norm dieser Gradienten bestraft. Um diese Ziele zu erreichen, entwickeln wir ein praktikables Verfahren zur Gradientenaktualisierung, das sowohl in Einzelquellen- als auch Mehrquellen-UDA-Ansätzen funktioniert. Empirisch übertrifft unsere Methode konsistent andere Ansätze zur Anpassung vision-sprachlicher Modelle. Die Implementierung ist unter https://github.com/VietHoang1512/PGA verfügbar.