8일 전
시각-언어 모델의 내재적 지식을 강한-약한 안내를 통한 비지도 도메인 적응과 결합하기
Thomas Westfechtel, Dexuan Zhang, Tatsuya Harada

초록
비지도 도메인 적응(UDA)은 레이블링 작업의 번거로움을 줄이기 위해 레이블이 부여된 소스 데이터셋을 활용하여 그 지식을 유사하지만 다른 타겟 데이터셋에 전이하려는 접근법이다. 한편, 현재의 시각-언어 모델은 놀라운 제로샷 예측 능력을 보이고 있다. 본 연구에서는 UDA를 통해 얻은 지식과 시각-언어 모델이 내재하고 있는 지식을 결합한다. 제로샷 예측을 활용하여 소스 데이터셋과 타겟 데이터셋 간의 정렬을 도와주는 강-약 가이던스 학습 방식을 제안한다. 강한 가이던스는 타겟 데이터셋에서 가장 확신도가 높은 샘플들을 소스 데이터셋에 확장하여 사용한다. 또한 약한 가이던스로 지식 전이 손실(knowledge distillation loss)을 활용한다. 강한 가이던스는 하드 레이블을 사용하지만, 타겟 데이터셋의 가장 확신도가 높은 예측에만 적용된다. 반면 약한 가이던스는 전체 데이터셋에 적용되지만 소프트 레이블을 사용한다. 약한 가이던스는 (이동된) 제로샷 예측을 기반으로 한 지식 전이 손실로 구현된다. 본 연구에서는 제안한 방법이 시각-언어 모델의 프롬프트 적응 기법과 상호보완적이고 이를 유익하게 활용함을 보여준다. OfficeHome, VisDA, DomainNet 세 가지 벤치마크에서 실험과 아블레이션 연구를 수행한 결과, 최신 기법들을 초월하는 성능을 달성하였다. 또한 아블레이션 연구를 통해 알고리즘 내 다양한 구성 요소의 기여도를 추가로 입증하였다.