
초록
자기지도 학습의 발전은 강력한 일반화 이미지 표현 학습 방법을 가능하게 하였다. 그러나 지금까지 이러한 연구는 주로 이미지 수준의 학습에 집중되어 왔다. 반면, 비지도 이미지 분할과 같은 과제는 공간적으로 다양한 표현이 필요하므로 이 트렌드의 이점을 충분히 누리지 못해왔다. 그러나 밀도 높은 표현을 학습하는 것은 도전적이다. 비지도 환경에서는 다양한 잠재적 객체 유형에 대응하는 표현을 모델이 어떻게 학습하도록 유도할지 명확하지 않기 때문이다. 본 논문에서는 객체 부분(self-supervised learning of object parts)의 학습이 이 문제에 대한 해결책이 될 수 있다고 주장한다. 객체 부분은 일반화 가능하다. 즉, 객체의 정의와 사전에 독립적이지만, 사후적으로 그들을 조합하여 객체를 형성할 수 있다. 이를 위해 최근 제안된 비전 트랜스포머(Vision Transformer)가 객체에 주목할 수 있는 능력을 활용하면서, 공간적으로 밀도 높은 클러스터링 작업을 통해 공간 토큰을 미세 조정한다. 제안하는 방법은 세 가지 의미 분할 벤치마크에서 기존 최고 성능(SOTA)을 17%에서 3%까지 초과하여, 다양한 객체 정의 하에서도 본 연구의 표현이 유연함을 입증한다. 마지막으로, 테스트 시에도 레이블 정보를 전혀 사용하지 않는 완전한 비지도 분할로 확장하여, 커뮤니티 탐지 기반의 자동 병합 기법을 간단히 적용했을 때 상당한 성능 향상을 달성함을 보여준다.