Unsupervised Domain Adaptation unter Nutzung von Vision-Language-Prätrainierung
Diese Arbeit behandelt zwei zentrale Herausforderungen im Bereich des unsupervised Domain Adaptation (UDA), wobei der Fokus auf der Nutzung des Potenzials von Vision-Language-Pre-training (VLP)-Modellen liegt. Erstens basiert UDA traditionell hauptsächlich auf Modellen, die auf ImageNet vortrainiert wurden. Die Möglichkeiten, die VLP-Modelle im Kontext von UDA bieten, sind jedoch weitgehend unerforscht. Die reichhaltige Repräsentation, die VLP-Modelle aufweisen, birgt erhevolles Potenzial zur Verbesserung von UDA-Aufgaben. Um diesem Problem zu begegnen, schlagen wir eine neuartige Methode namens Cross-Modal Knowledge Distillation (CMKD) vor, die VLP-Modelle als Lehrmodelle nutzt, um den Lernprozess im Zielbereich zu leiten und so Leistungen auf State-of-the-Art-Niveau zu erzielen. Zweitens beruhen aktuelle UDA-Paradigmen auf der Trainierung separater Modelle für jede einzelne Aufgabe, was zu erheblichen Speicheranforderungen führt und die praktikable Modellbereitstellung erschwert, insbesondere wenn die Anzahl der Übertragungsaufgaben wächst. Um diese Herausforderung zu überwinden, führen wir Residual Sparse Training (RST) ein, das die Vorteile der umfangreichen Vortrainingsphase von VLP-Modellen nutzt. Diese Technik erfordert nur eine minimale Anpassung der VLP-Modellparameter (ca. 0,1 % bis 0,5 %), um Leistungen zu erzielen, die mit denen des Feintunings vergleichbar sind. Durch die Kombination von CMKD und RST präsentieren wir eine umfassende Lösung, die VLP-Modelle effektiv für UDA-Aufgaben nutzt und gleichzeitig die Speicherkosten für die Modellbereitstellung reduziert. Darüber hinaus kann CMKD als Basisverfahren in Kombination mit anderen Methoden wie FixMatch eingesetzt werden, um die Leistung von UDA weiter zu steigern. Unser vorgeschlagenes Verfahren erreicht auf Standardbenchmarks bessere Ergebnisse als bestehende Techniken. Der Quellcode wird unter folgender URL verfügbar sein: https://github.com/Wenlve-Zhou/VLP-UDA.