2달 전

안정적인 클러스터 구분을 위한 딥 클러스터링

Qi Qian
안정적인 클러스터 구분을 위한 딥 클러스터링
초록

깊은 클러스터링(Deep Clustering)은 인스턴스의 표현을 최적화(즉, 표현 학습(representation learning))하고 동시에 데이터의 내재적인 분포를 탐색(즉, 클러스터링(clustering))할 수 있어, 주어진 특징들로 이루어진 전통적인 클러스터링 방법보다 우수한 성능을 보입니다. 그러나 결합된 목적함수는 모든 인스턴스가 균일한 특징으로 붕괴되는 자명한 해(trivial solution)를 암시합니다. 이 문제를 해결하기 위해, 표현 학습을 위한 추가적인 사전 훈련(pre-training) 단계와 그 후 클러스터링을 위한 모델 조정(fine-tuning) 단계를 포함하는 두 단계 훈련 전략이 개발되었습니다. 한편, 한 단계 방법들은 주로 클러스터링보다는 표현 학습에 중점을 두고 있으며, 각 미니 배치(mini-batch)에서 특정 클러스터에 대한 지표 라벨과 양성 인스턴스의 부족으로 인해 명시적으로 붕괴를 피하기 위해 다양한 제약 조건이 설계되었습니다. 이러한 방법들의 성공에도 불구하고, 깊은 클러스터링에 적합한 학습 목적함수가 충분히 연구되지 않았습니다.본 연구에서는 감독 학습에서 널리 사용되는 구별 작업(discrimination task)이 각 미니 배치에서 지표 라벨과 특정 클러스터에 대한 양성 인스턴스의 부족으로 인해 한 단계 클러스터링에 불안정하다는 점을 먼저 보여줍니다. 이 문제를 완화하기 위해 새로운 안정적인 클러스터 구별(SeCu) 작업이 제안되었으며, 이를 통해 새로운 난이도 인식(hardness-aware) 클러스터링 기준이 도출되었습니다. 또한, 효율적인 최적화와 함께 클러스터 할당에 대한 전역 엔트로피 제약(global entropy constraint)이 연구되었습니다. 벤치마크 데이터 세트와 ImageNet에서 광범위한 실험을 수행한 결과, SeCu는 모든 실험에서 최상의 성능(state-of-the-art performance)을 달성하여 한 단계 깊은 클러스터링의 효과성을 입증하였습니다. 코드는 \url{https://github.com/idstcv/SeCu}에서 제공됩니다.

안정적인 클러스터 구분을 위한 딥 클러스터링 | 최신 연구 논문 | HyperAI초신경