이 논문은 시각-언어 사전 훈련(Vision-Language Pre-training, VLP) 모델의 강력한 능력을 활용함으로써 비감독 도메인 적응(Unsupervised Domain Adaptation, UDA)에서 발생하는 두 가지 핵심 과제를 다룬다. 첫째, 기존의 UDA는 주로 ImageNet 기반 사전 훈련 모델에 의존해 왔으나, VLP 모델이 UDA에 미치는 잠재적 영향은 여전히 거의 탐색되지 않은 상태이다. VLP 모델이 가지는 풍부한 표현 능력은 UDA 작업의 성능 향상에 큰 가능성을 지닌다. 이를 해결하기 위해 우리는 VLP 모델을 교사 모델로 활용하여 타겟 도메인 내 학습 과정을 안내하는 새로운 방법인 다중 모달 지식 증류(Cross-Modal Knowledge Distillation, CMKD)를 제안한다. 이로 인해 최신 기술 수준의 성능을 달성할 수 있다. 둘째, 기존의 UDA 패러다임은 각각의 작업마다 별도의 모델을 훈련하기 때문에, 전이 작업 수가 증가함에 따라 저장 용량 부담이 크고 모델 배포가 현실적으로 어렵다는 문제가 있다. 이러한 문제를 해결하기 위해 우리는 VLP 모델의 광범위한 사전 훈련이 제공하는 이점을 활용하는 잔차 희소 훈련(Residual Sparse Training, RST) 기법을 제안한다. 이 기법은 VLP 모델의 파라미터를 약 0.1%~0.5%만 조정함으로써, 미세 조정(fine-tuning) 수준의 성능을 달성할 수 있다. CMKD와 RST를 결합함으로써, VLP 모델을 효과적으로 UDA 작업에 활용하면서도 모델 배포에 필요한 저장 용량을 줄이는 종합적인 솔루션을 제시한다. 더불어 CMKD는 FixMatch과 같은 다른 기법과 결합하여 기준 모델(baseline)로 활용될 수 있으며, UDA 성능을 추가로 향상시킬 수 있다. 제안된 방법은 표준 벤치마크에서 기존 기술들을 모두 능가한다. 본 연구의 코드는 다음과 같은 주소에서 공개될 예정이다: https://github.com/Wenlve-Zhou/VLP-UDA.