17일 전

컨텍스트 인지형 강건한 미세조정

Xiaofeng Mao, Yuefeng Chen, Xiaojun Jia, Rong Zhang, Hui Xue, Zhao Li
컨텍스트 인지형 강건한 미세조정
초록

대조적 언어-이미지 사전 훈련(Contrastive Language-Image Pre-trained, CLIP) 모델은 이미지와 프롬프트 문장 “a [CONTEXT] of [CLASS]” 간의 유사도를 활용하여, 이미지가 “[CLASS]”에 속하는지 여부를 제로샷(zero-shot)으로 분류할 수 있는 능력을 갖추고 있다. “[CONTEXT]”에 포함된 풍부한 텍스트 정보를 바탕으로 CLIP 모델은 배경, 스타일, 시점 등 다양한 맥락을 인지하며, 다양한 분포 변화(distribution shifts)에 대해 예측할 수 없는 강건성(robustness)을 보인다. 그러나 최근 연구들은 CLIP 모델의 추가적인 미세조정(fine-tuning)이 정확도를 향상시키지만, 하류 작업에서의 강건성을 희생한다는 점을 발견하였다. 본 연구에서는 미세조정이 사전 훈련된 CLIP 특징의 맥락 인지 능력을 악화시킨다는 점을 실증적으로 입증한다. 이를 해결하기 위해, 맥락 인지 강건한 미세조정(Context-Aware Robust Fine-tuning, CAR-FT)을 제안한다. CAR-FT는 미세조정 과정에서 모델이 맥락 정보를 효과적으로 포착하도록 정규화한다. 구체적으로, 제로샷 프롬프트 가중치를 사용하여 이미지 내 포함된 맥락 분포를 추출하고, 원본 CLIP 모델과 미세조정된 CLIP 모델이 유도하는 맥락 분포 간의 쿨백-라이블러 발산(Kullback-Leibler Divergence, KLD)을 최소화함으로써, CLIP의 맥락 인지 능력이 하류 작업으로 전이되도록 한다. 그 결과, 내분포(In-Distribution, ID) 및 외분포(Out-of-Distribution, OOD) 정확도 모두에서 높은 성능을 달성한다. 실험 결과, CAR-FT는 ImageNet의 다섯 개 OOD 테스트 데이터셋에서 우수한 강건성을 보이며, 동시에 아홉 가지 하류 작업에서 정확도 향상을 가져왔다. 더불어, 기존의 도메인 일반화(Domain Generalization, DG) 방법들을 초월하여 DomainBed 벤치마크에서 평균 정확도 78.5%를 달성하며, 새로운 최상의 성능(state-of-the-art)을 수립하였다.

컨텍스트 인지형 강건한 미세조정 | 최신 연구 논문 | HyperAI초신경