시각-언어 모델을 활용한 이미지 분류에서 도메인 일반화 향상

비전-언어 모델(Vision-Language Models, VLMs)인 CLIP과 같은 모델들은 대량의 이미지-텍스트 쌍을 기반으로 훈련되며, 다양한 데이터 분포에 걸쳐 뛰어난 일반화 성능을 보인다. 그러나 일부 경우에 있어서 이러한 모델의 고비용 훈련 및 데이터 수집/정제 비용은 최종 응용에 비해 정당화되기 어렵다. 이에 따라, 공급자(벤더)가 대규모 VLM을 훈련한 후, 흑상자(black-box) 환경에서 클라이언트에게 쿼리당 지불 방식으로 입력-출력 접근 권한만을 부여하는 벤더-클라이언트 파라다임이 제안된다. 클라이언트는 제한된 특정 작업용 레이블 데이터를 활용해 VLM을 소학생 모델(student model)로 교사-학생(distillation)하여 추론 비용을 최소화하고, 이후 이 소학생 모델을 하류 응용에 배포하고자 한다. 일반적인 교사-학생 훈련 방식은 소학생 모델의 도메인 내(ID, In-Domain) 정확도를 크게 향상시키지만, 제한된 레이블 이미지만을 활용할 경우 VLM 교사 모델의 뛰어난 도메인 외(OOD, Out-of-Domain) 일반화 능력을 효과적으로 전이하지 못한다. 이를 해결하기 위해 본 연구에서는 비전-언어 → 비전-정렬, 교사-학생, 예측(Vision-Language to Vision - Align, Distill, Predict, VL2V-ADiP)을 제안한다. 이 방법은 먼저 교사 모델의 비전 및 언어 모달리티를 사전 훈련된 소학생 모델의 비전 모달리티와 정렬하고, 정렬된 VLM 표현을 소학생 모델에 교사-학생 방식으로 전이한다. 이를 통해 소학생 모델의 사전 훈련된 특징을 최대한 유지하면서도 VLM 이미지 인코더의 � бог rich한 표현력과 텍스트 임베딩의 뛰어난 일반화 능력을 효과적으로 통합한다. 제안된 접근법은 흑상자 교사 환경뿐만 아니라 VLM의 가중치에 접근 가능한 백상자(white-box) 환경에서도 표준 도메인 일반화 벤치마크에서 최신 기준(SOTA, State-of-the-Art) 성능을 달성한다.