
샘플 간의 유사성과 클러스터 간의 차이점은 이미지 클러스터링의 두 가지 핵심 측면입니다. 그러나 현재의 딥 클러스터링 방법들은 피처 유사성이나 의미적 차이점을 정확히 추정하지 못하는 문제를 가지고 있습니다. 본 논문에서는Semantic Pseudo-labeling-based Image ClustEring (SPICE) 프레임워크를 제시합니다. 이 프레임워크는 클러스터링 네트워크를 인스턴스 수준의 유사성을 측정하는 피처 모델과 클러스터 수준의 차이점을 식별하는 클러스터링 헤드로 나눕니다. 우리는 프로토타입 의사 라벨링 알고리즘과 신뢰할 수 있는 의사 라벨링 알고리즘이라는 두 가지 의미 인식형 의사 라벨링 알고리즘을 설계하여, 클러스터링에 대한 정확하고 신뢰할 수 있는 자기 지도 학습을 가능하게 합니다. 어떠한 실제 라벨도 사용하지 않고, 우리는 세 단계에서 클러스터링 네트워크를 최적화합니다: 1) 대조 학습을 통해 인스턴스 유사성을 측정하기 위한 피처 모델을 학습시키고, 2) 프로토타입 의사 라벨링 알고리즘을 사용하여 클러스터 의미를 식별하기 위한 클러스터링 헤드를 학습시키며, 3) 신뢰할 수 있는 의사 라벨링 알고리즘을 사용하여 피처 모델과 클러스터링 헤드를 공동으로 학습시켜서 클러스터링 성능을 개선합니다. 광범위한 실험 결과는 SPICE가 기존 방법들보다 상당한 개선 (~10%)을 이루어냈으며, 여섯 개의 이미지 벤치마크 데이터셋에서 세 가지 인기 있는 평가 지표에 따라 새로운 최신 클러스터링 결과를 설정하였음을 보여줍니다. 특히, SPICE는 비지도와 완전 지도 분류 사이의 격차를 크게 줄였습니다; 예를 들어, CIFAR-10에서는 오직 2% (91.8% 대 93.8%)의 정확도 차이만 남아 있습니다. 우리의 코드는 https://github.com/niuchuangnn/SPICE에서 공개적으로 이용 가능합니다.