PromptKD: 시각-언어 모델을 위한 비지도 프롬프트 증류

프롬프트 학습은 CLIP과 같은 시각-언어 모델(VLM)의 하류 작업에서 특정 도메인에 적합하게 성능을 향상시키는 데 있어 중요한 기술로 부상하고 있다. 기존 연구들은 주로 다양한 형태의 프롬프트 설계에 집중하여, 프롬프트가 더 큰 테이처 모델로부터 학습하는 데 있어 효과적인 ‘지식 증류(knowledge distillation) 도구’로서의 잠재력을 간과하고 있다. 본 논문에서는 레이블이 없는 도메인 이미지를 활용하여 프롬프트 기반의 모방을 통해 큰 테이처 모델의 지식을 가벼운 타깃 모델로 전이하는 비지도 도메인 프롬프트 증류 프레임워크를 제안한다. 구체적으로, 본 프레임워크는 두 가지 서로 다른 단계로 구성된다. 초기 단계에서는 도메인(소수 샘플) 레이블을 사용하여 대규모 CLIP 테이처 모델을 사전 학습한다. 사전 학습 이후, CLIP의 고유한 모달리티 분리 특성을 활용하여, 테이처 텍스트 인코더를 통해 텍스트 특징(클래스 벡터)을 한 번만 사전 계산하고 저장한다. 이후 단계에서는 저장된 클래스 벡터를 테이처와 학습자(image encoder)의 이미지 인코더 간에 공유하여 예측 로짓을 계산한다. 또한, KL 발산을 통해 테이처 모델과 학습자 모델의 로짓을 정렬함으로써, 학습 가능한 프롬프트를 통해 학습자 이미지 인코더가 테이처 모델과 유사한 확률 분포를 생성하도록 유도한다. 제안된 프롬프트 증류 과정은 레이블 데이터에 의존하지 않으며, 도메인 내 방대한 양의 레이블 없는 이미지를 활용할 수 있도록 한다. 마지막으로, 잘 학습된 학습자 이미지 인코더와 사전 저장된 텍스트 특징(클래스 벡터)은 추론에 활용된다. 본 연구를 통해 우리는 (1) CLIP에 대해 비지도 도메인 특화 프롬프트 기반 지식 증류를 수행한 최초의 연구이며, (2) 테이처와 학습자 간에 공유 가능한 클래스 벡터로서 텍스트 특징을 사전 저장하는 실용적인 메커니즘을 구축한 최초의 사례임을 입증한다. 11개 데이터셋에서 수행한 광범위한 실험을 통해 본 방법의 효과성을 입증하였다.