HyperAIHyperAI
vor 8 Tagen

CoDA: Anweisungsorientierte Chain-of-Domain-Anpassung mit schwerheitsbewusster visueller Prompt-Tuning

Ziyang Gong, Fuhao Li, Yupeng Deng, Deblina Bhattacharjee, Xianzheng Ma, Xiangwei Zhu, Zhenming Ji
CoDA: Anweisungsorientierte Chain-of-Domain-Anpassung mit schwerheitsbewusster visueller Prompt-Tuning
Abstract

Unsupervised Domain Adaptation (UDA) zielt darauf ab, Modelle von beschrifteten Quellbereichen auf unbeschriftete Zielbereiche anzupassen. Bei der Anpassung an ungünstige Szenen erzielen bestehende UDA-Methoden aufgrund fehlender Anweisungen nur eine suboptimale Leistung, da ihre Modelle Unterschiede innerhalb aller ungünstigen Szenen übersehen. Um dieses Problem zu bewältigen, schlagen wir CoDA vor, welches Modelle anweist, diese Unterschiede auf Szenen- und Bildebene zu erkennen, zu fokussieren und darauf zu lernen. Konkret besteht CoDA aus einer Chain-of-Domain (CoD)-Strategie und einem Severity-Aware Visual Prompt Tuning (SAVPT)-Mechanismus. Die CoD-Strategie konzentriert sich auf Szenenebene Anweisungen, um alle ungünstigen Szenen in einfache und schwierige Szenen zu unterteilen. Dadurch wird das Modell angewiesen, zunächst von der Quelle auf einfache Szenen mit Bildern einfacher Szenen anzupassen und anschließend auf schwierige Szenen mit Bildern schwieriger Szenen, wodurch eine solide Grundlage für die gesamte Anpassung geschaffen wird. Auf dieser Grundlage nutzen wir SAVPT, um detailliertere Anweisungen auf Bildebene einzubringen und die Leistung weiter zu steigern. SAVPT führt eine neuartige Metrik namens Severity ein, die alle Bilder aus ungünstigen Szenen in Bilder mit geringer und hoher Schwere grade unterteilt. Anschließend leitet Severity die visuellen Prompts und Adapter an, wodurch die Modelle darauf hingewiesen werden, sich auf gemeinsame Schweregrade-merkmale zu konzentrieren, anstatt auf szenenspezifische Merkmale – ohne die Komplexität der Modellarchitektur zu erhöhen. CoDA erreicht state-of-the-art (SOTA)-Leistungen auf etablierten Benchmarks unter allen ungünstigen Szenen. Insbesondere übertrifft CoDA bestehende Methoden um 4,6 % und 10,3 % mIoU auf den Benchmarks Foggy Driving und Foggy Zurich. Unser Code ist unter https://github.com/Cuzyoung/CoDA verfügbar.

CoDA: Anweisungsorientierte Chain-of-Domain-Anpassung mit schwerheitsbewusster visueller Prompt-Tuning | Neueste Forschungsarbeiten | HyperAI