11일 전

클러스터링을 위한 표현 학습: 프로토타입 산산조각 내기 및 양성 샘플링을 통한 접근

Zhizhong Huang, Jie Chen, Junping Zhang, Hongming Shan
클러스터링을 위한 표현 학습: 프로토타입 산산조각 내기 및 양성 샘플링을 통한 접근
초록

기존의 딥 클러스터링 방법들은 후속 클러스터링 작업을 위해 대체로 대조적(contrastive) 또는 비대조적(non-contrastive) 표현 학습에 의존하고 있다. 대조 기반 방법은 음성 쌍(negative pairs)을 통해 클러스터링을 위한 균일한 표현을 학습하지만, 음성 쌍은 불가피하게 클래스 충돌(class collision) 문제를 야기할 수 있으며, 이는 결과적으로 클러스터링 성능 저하로 이어진다. 반면 비대조 기반 방법은 클래스 충돌 문제를 피할 수는 있으나, 얻어지는 비균일한 표현은 클러스터링 붕괴(clustering collapse)를 초래할 수 있다. 두 방식의 장점을 모두 누릴 수 있도록 하기 위해, 본 논문에서는 프로토타입 산란(prototype scattering)과 양성 샘플링(positive sampling)을 통합한 새로운 엔드투엔드 딥 클러스터링 방법 ProPos를 제안한다. 구체적으로, 먼저 프로토타입 표현 간의 거리를 최대화하는 프로토타입 산란 손실(prototype scattering loss)을 정의함으로써 표현의 균일성을 향상시킨다. 다음으로, 한 증강된 인스턴스 뷰를 다른 뷰의 샘플링된 이웃과 정렬하는 방식—즉, 임베딩 공간 내에서 진정한 양성 쌍(true positive pair)으로 가정—을 통해 클러스터 내 밀집도를 개선한다. 이를 양성 샘플링 정렬(positive sampling alignment)이라고 한다. ProPos의 주요 강점은 클래스 충돌 문제의 방지, 균일한 표현, 잘 분리된 클러스터, 그리고 클러스터 내 밀집도의 확보이다. 이러한 ProPos를 엔드투엔드 기반의 기대-최대화(expectation-maximization) 프레임워크 내에서 최적화함으로써, 광범위한 실험 결과를 통해 ProPos가 중규모 클러스터링 벤치마크 데이터셋에서 경쟁 가능한 성능을 달성하였으며, 대규모 데이터셋에서는 새로운 최고 성능(state-of-the-art)을 수립함을 입증하였다. 소스 코드는 \url{https://github.com/Hzzone/ProPos}에서 제공된다.

클러스터링을 위한 표현 학습: 프로토타입 산산조각 내기 및 양성 샘플링을 통한 접근 | 최신 연구 논문 | HyperAI초신경