
초록
본 논문에서는 인스턴스 수준과 클러스터 수준의 대조 학습을 명시적으로 수행하는 단일 단계 온라인 클러스터링 방법인 대조 클러스터링(Contrastive Clustering, CC)을 제안한다. 구체적으로 주어진 데이터셋에 대해 데이터 증강을 통해 긍정 및 부정 인스턴스 쌍을 구성하고, 이를 특징 공간으로 매핑한다. 이 특징 행렬 내에서, 행 공간에서는 인스턴스 수준의 대조 학습을, 열 공간에서는 클러스터 수준의 대조 학습을 수행하며, 긍정 쌍 간의 유사도를 최대화하고 부정 쌍 간의 유사도를 최소화함으로써 학습을 진행한다. 본 연구의 핵심 관찰은 특징 행렬의 행들이 인스턴스에 대한 소프트 레이블로 간주될 수 있으며, 이에 따라 열들은 클러스터 표현으로 해석될 수 있다는 점이다. 인스턴스 수준과 클러스터 수준의 대조 손실을 동시에 최적화함으로써, 모델은 엔드 투 엔드 방식으로 표현과 클러스터 할당을 공동으로 학습한다. 광범위한 실험 결과는 CC가 6개의 도전적인 이미지 벤치마크에서 17개의 경쟁적 클러스터링 방법들을 뚜렷이 능가함을 보여준다. 특히, CIFAR-10 및 CIFAR-100 데이터셋에서 각각 NMI 0.705(0.431)의 성능을 기록하며, 가장 우수한 베이스라인 대비 최대 19%(39%)의 성능 향상을 달성하였다.