
초록
기초 시각-언어 모델은 사전 학습된 표현을 다양한 하류 작업으로 뛰어난 제로샷 전이 가능성을 제공하였습니다. 그러나 새로운 작업을 해결하기 위해서는 여전히 데이터에 나타나는 시각적 범주를 정의하기 위한 인간의 안내가 필요합니다. 본 연구에서는 서로 다른 기초 모델들의 표현 공간에서 최대 마진 분류기를 유도하는 데이터셋의 라벨링을 찾는 과정에서 완전한 비지도 전이가 발생함을 보여드립니다. 우리는 TURTLE이라는 완전 비지도 방법을 제시하는데, 이 방법은 어떠한 감독 없이 하류 데이터셋의 기본적인 라벨링을 효과적으로 밝혀내고, 작업 특화된 표현 학습을 수행하지 않습니다. TURTLE은 26개의 다양한 벤치마크 데이터셋에서 평가되었으며, 새로운 최고 수준의 비지도 성능을 달성하였습니다. 또한, TURTLE은 완전 비지도임에도 불구하고 광범위한 데이터셋에서 제로샷 전이 기준모델들을 능가하였습니다. 특히, TURTLE은 같은 표현 공간을 사용하여 26개의 데이터셋에서 CLIP 제로샷의 평균 성능과 일치하며, 다양한 아키텍처와 모델 크기를 포괄하고 있습니다. 두 개의 기초 모델들의 표현 공간을 활용하여 기본적인 라벨링 탐색을 안내함으로써, TURTLE은 제로샷 전이와 비지도 프롬프트 조정 기준모델들을 초월하였으며, 비지도 전이의 놀라운 힘과 효율성을 입증하였습니다.