HyperAIHyperAI

Command Palette

Search for a command to run...

vor 4 Monaten

Unsupervised Domain Adaptation unter Nutzung von Vision-Language-Prätrainierung

{Wenlve Zhou and Zhiheng Zhou}

Abstract

Diese Arbeit behandelt zwei zentrale Herausforderungen im Bereich des unsupervised Domain Adaptation (UDA), wobei der Fokus auf der Nutzung des Potenzials von Vision-Language-Pre-training (VLP)-Modellen liegt. Erstens basiert UDA traditionell hauptsächlich auf Modellen, die auf ImageNet vortrainiert wurden. Die Möglichkeiten, die VLP-Modelle im Kontext von UDA bieten, sind jedoch weitgehend unerforscht. Die reichhaltige Repräsentation, die VLP-Modelle aufweisen, birgt erhevolles Potenzial zur Verbesserung von UDA-Aufgaben. Um diesem Problem zu begegnen, schlagen wir eine neuartige Methode namens Cross-Modal Knowledge Distillation (CMKD) vor, die VLP-Modelle als Lehrmodelle nutzt, um den Lernprozess im Zielbereich zu leiten und so Leistungen auf State-of-the-Art-Niveau zu erzielen. Zweitens beruhen aktuelle UDA-Paradigmen auf der Trainierung separater Modelle für jede einzelne Aufgabe, was zu erheblichen Speicheranforderungen führt und die praktikable Modellbereitstellung erschwert, insbesondere wenn die Anzahl der Übertragungsaufgaben wächst. Um diese Herausforderung zu überwinden, führen wir Residual Sparse Training (RST) ein, das die Vorteile der umfangreichen Vortrainingsphase von VLP-Modellen nutzt. Diese Technik erfordert nur eine minimale Anpassung der VLP-Modellparameter (ca. 0,1 % bis 0,5 %), um Leistungen zu erzielen, die mit denen des Feintunings vergleichbar sind. Durch die Kombination von CMKD und RST präsentieren wir eine umfassende Lösung, die VLP-Modelle effektiv für UDA-Aufgaben nutzt und gleichzeitig die Speicherkosten für die Modellbereitstellung reduziert. Darüber hinaus kann CMKD als Basisverfahren in Kombination mit anderen Methoden wie FixMatch eingesetzt werden, um die Leistung von UDA weiter zu steigern. Unser vorgeschlagenes Verfahren erreicht auf Standardbenchmarks bessere Ergebnisse als bestehende Techniken. Der Quellcode wird unter folgender URL verfügbar sein: https://github.com/Wenlve-Zhou/VLP-UDA.

Benchmarks

BenchmarkMethodikMetriken
domain-adaptation-on-imageclef-daCMKD
Accuracy: 94.3
domain-adaptation-on-office-31CMKD
Average Accuracy: 94.4
domain-adaptation-on-office-homeCMKD
Accuracy: 89.0
domain-adaptation-on-visda2017CMKD
Accuracy: 91.8

KI mit KI entwickeln

Von der Idee bis zum Start — beschleunigen Sie Ihre KI-Entwicklung mit kostenlosem KI-Co-Coding, sofort einsatzbereiter Umgebung und den besten GPU-Preisen.

KI-Co-Coding
Sofort einsatzbereit GPUs
Beste Preise
Jetzt starten

Hyper Newsletters

Abonnieren Sie unsere neuesten Updates
Wir werden die neuesten Updates der Woche in Ihren Posteingang liefern um neun Uhr jeden Montagmorgen
Unterstützt von MailChimp
Unsupervised Domain Adaptation unter Nutzung von Vision-Language-Prätrainierung | Forschungsarbeiten | HyperAI