2달 전
깊은 ViT 특성의 밀도 있는 시각적 설명자로서의 활용
Amir, Shir ; Gandelsman, Yossi ; Bagon, Shai ; Dekel, Tali

초록
우리는 사전 훈련된 비전 트랜스포머(Vision Transformer, ViT)에서 추출한 깊은 특징을 밀도 높은 시각적 설명자로 활용하는 방법을 연구합니다. 우리는 경험적으로 관찰하고 증명하였습니다: (i) 자기 감독 학습 ViT 모델(DINO-ViT)에서 추출한 이러한 특징이 강력하고 정확히 위치된 의미 정보를 고 공간 분해능으로 인코딩하며, 예를 들어 객체 부분 등을 포함합니다; (ii) 인코딩된 의미 정보가 관련되지만 다른 객체 카테고리 간에 공유되고 있으며, (iii) 위치 편향이 층을 거치면서 점진적으로 변화한다는 것입니다. 이러한 속성들은 공통 세그멘테이션, 부분 공통 세그멘테이션 및 의미적 대응 등 다양한 응용 프로그램을 위한 간단한 방법들을 설계할 수 있게 합니다.비트 특징의 힘을 복잡한 설계 선택에서 추출하기 위해, 우리는 직접 특징에 적용되는 경량의 제로샷(zero-shot) 방법론(예: 바이닝(binning) 및 클러스터링(clustering))에 제한을 두었습니다. 우리의 방법론들이 추가적인 훈련이나 데이터를 필요로 하지 않기 때문에, 다양한 도메인에서 즉시 적용할 수 있습니다. 광범위한 질적 및 양적 평가를 통해 우리의 간단한 방법론들이 최근의 최신 감독 학습 방법론들과 경쟁력을 갖는 결과를 달성하며, 이전의 비감독 학습 방법론들보다 크게 우수함을 보여주었습니다. 코드는 dino-vit-features.github.io에서 제공됩니다.