2달 전

깊은 ViT 특성의 밀도 있는 시각적 설명자로서의 활용

Amir, Shir ; Gandelsman, Yossi ; Bagon, Shai ; Dekel, Tali
깊은 ViT 특성의 밀도 있는 시각적 설명자로서의 활용
초록

우리는 사전 훈련된 비전 트랜스포머(Vision Transformer, ViT)에서 추출한 깊은 특징을 밀도 높은 시각적 설명자로 활용하는 방법을 연구합니다. 우리는 경험적으로 관찰하고 증명하였습니다: (i) 자기 감독 학습 ViT 모델(DINO-ViT)에서 추출한 이러한 특징이 강력하고 정확히 위치된 의미 정보를 고 공간 분해능으로 인코딩하며, 예를 들어 객체 부분 등을 포함합니다; (ii) 인코딩된 의미 정보가 관련되지만 다른 객체 카테고리 간에 공유되고 있으며, (iii) 위치 편향이 층을 거치면서 점진적으로 변화한다는 것입니다. 이러한 속성들은 공통 세그멘테이션, 부분 공통 세그멘테이션 및 의미적 대응 등 다양한 응용 프로그램을 위한 간단한 방법들을 설계할 수 있게 합니다.비트 특징의 힘을 복잡한 설계 선택에서 추출하기 위해, 우리는 직접 특징에 적용되는 경량의 제로샷(zero-shot) 방법론(예: 바이닝(binning) 및 클러스터링(clustering))에 제한을 두었습니다. 우리의 방법론들이 추가적인 훈련이나 데이터를 필요로 하지 않기 때문에, 다양한 도메인에서 즉시 적용할 수 있습니다. 광범위한 질적 및 양적 평가를 통해 우리의 간단한 방법론들이 최근의 최신 감독 학습 방법론들과 경쟁력을 갖는 결과를 달성하며, 이전의 비감독 학습 방법론들보다 크게 우수함을 보여주었습니다. 코드는 dino-vit-features.github.io에서 제공됩니다.

깊은 ViT 특성의 밀도 있는 시각적 설명자로서의 활용 | 최신 연구 논문 | HyperAI초신경