
이미지 클러스터링은 인간의 감독 없이 애너테이션을 생성하는 것을 목표로 하는 특히 도전적인 컴퓨터 비전 과제이다. 최근의 연구들은 먼저 유의미한 의미 정보를 학습한 후 이미지 표현을 클러스터링하는 방식으로, 이미지 클러스터링에 자기지도 학습(self-supervised learning) 전략을 활용하는 데 집중하고 있다. 그러나 이러한 다단계 알고리즘은 계산 시간을 증가시키며, 최종 성능이 첫 번째 단계에 크게 의존하는 문제가 있다. 본 연구에서는 자기지도 학습 접근법을 확장하여, 의미 있는 표현을 동시에 학습하고 해당 표현에 대한 애너테이션을 할당하는 새로운 단일 단계(clustering) 방법을 제안한다. 이는 분류기 네트워크를 통해 이산적 표현(discrete representation)을 자기지도 학습 프레임워크에 통합함으로써 달성된다. 구체적으로 제안된 클러스터링 목적 함수는 상호 정보량(mutual information)을 활용하며, 통합된 이산적 표현과 이산 확률 분포 사이의 종속성(dependency)을 최대화한다. 이 이산 확률 분포는 자기지도 과정을 통해 학습된 은닉 표현(latent representation)을 학습 가능한 프로토타입 집합과 비교함으로써 도출된다. 분류기의 학습 성능을 향상시키기 위해, 다중 크롭(multi-crop) 시각에 걸쳐 상호 정보량을 공동으로 적용한다. 실험 결과, 제안하는 프레임워크는 CIFAR-10 및 CIFAR-100/20 데이터셋에서 각각 평균 정확도 89.1%와 49.0%를 기록하며 최첨단 기술들을 능가함을 보였다. 마지막으로, 제안된 방법은 파라미터 설정에 대해 뛰어난 내성성(robustness)을 보이며, 다른 데이터셋에도 쉽게 적용 가능함을 입증하였다.