17일 전

미지 도메인에 CLIP을 효율적으로 적응시키기 위한 도메인 프롬프트 학습

Xin Zhang, Shixiang Shane Gu, Yutaka Matsuo, Yusuke Iwasawa
미지 도메인에 CLIP을 효율적으로 적응시키기 위한 도메인 프롬프트 학습
초록

도메인 일반화(Domain Generalization, DG)는 미지의 도메인에 대해 일반화 가능한 모델을 학습하는 것을 목표로 하는 어려운 전이 학습 문제이다. 최근 등장한 기초 모델(Foundation Models, FMs)은 다양한 분포 변화에 강건하며, 이로 인해 DG의 성능을 크게 향상시킬 수 있다. 본 연구에서는 이미지 분류 문제에 대한 도메인 일반화에 CLIP, 시각-언어 기초 모델을 효과적으로 활용할 수 있는 일반적인 방법을 탐구한다. 기존의 ERM(일반화된 학습 기법)은 표준 DG 벤치마크를 사용할 때 더 큰 백본 네트워크와 더 큰 학습 데이터셋을 활용함으로써 정확도를 크게 향상시키지만, 기초 모델을 미세조정하는 것은 많은 실제 상황에서 실용적이지 않다. 이에 우리는 조건부 프롬프트 생성 방식의 도메인 추론을 위한 새로운 접근법인 도메인 프롬프트 학습(Domain Prompt Learning, DPL)을 제안한다. DPL은 가벼운 프롬프트 생성기(3층 MLP)만을 학습하면 되며, 이 생성기의 파라미터 수는 기존 DG 연구에서 사용되는 분류 프로젝터와 비슷한 수준이다. CLIP과 함께 사용할 때 DPL은 놀라운 성능 향상을 보였으며, PACS, VLCS, OfficeHome, TerraIncognita 등의 표준 데이터셋에서 제로샷 CLIP의 정확도를 73.7%에서 79.3%로 상승시켰다. 본 연구의 단순성과 성공적인 결과가 기초 모델이 도메인 일반화 분야에서 더 넓게 채택되고 분석되기를 기대한다. 코드는 https://github.com/shogi880/DPLCLIP 에서 공개되어 있다.