2달 전

깊이 클러스터링과 측도 전파

Minhua Chen; Badrinath Jayakumar; Padmasundari Gopalakrishnan; Qiming Huang; Michael Johnston; Patrick Haffner
깊이 클러스터링과 측도 전파
초록

깊은 모델은 지도 학습과 비지도 학습 모두에서 최신 기술을 크게 개선했습니다. 예를 들어, 스택된 오토인코더를 사용하여 표현 학습을 수행함으로써 깊게 임베딩된 클러스터링(Deep Embedded Clustering, DEC)은 비지도 클러스터링 성능을 크게 향상시켰습니다. 그러나 깊은 모델링의 한 가지 약점은 원래 공간에서의 국소 이웃 구조가 잠재 공간에서 반드시 보존되지 않는다는 것입니다. 국소 기하학을 보존하기 위해, 그래프 라플라시안 정규화를 사용하는 다양한 방법(예: 스펙트럼 클러스터링 및 라벨 전파)이 지도 학습과 준지도 학습 문헌에서 제안되었습니다. 본 논문에서는 깊은 표현 학습의 강점을 준지도 시나리오에서 처음 사용되었던 KL 발산 기반 그래프 정규화 방법인 측정 전파(Measure Propagation, MP)와 결합합니다. MP의 주요 가정은 원래 공간에서 두 데이터 포인트가 가까우면 같은 클래스에 속할 가능성이 크다는 것입니다. 이는 클래스 소속 분포의 KL 발산으로 측정됩니다. 비지도 학습 시나리오에서도 동일한 가정을 취함으로써, 우리는 측정 전파를 활용한 깊게 임베딩된 클러스터링(Deep Embedded Clustering Aided by Measure Propagation, DECAMP) 모델을 제안합니다. DECAMP를 짧은 텍스트 클러스터링 작업에 평가했습니다. 세 개의 공개 데이터셋에서 DECAMP는 추가 데이터를 사용하여 클러스터링 과정에 사용되는 단어 임베딩을 생성하는 베이스라인 포함하여 다른 최신 베이스라인들과 경쟁력 있는 성능을 보였습니다. 예를 들어, Stackoverflow 데이터셋에서는 DECAMP가 79%의 클러스터링 정확도를 달성했으며, 이는 모든 기존 베이스라인보다 약 5% 높았습니다. 이러한 경험적 결과들은 DECAMP가 비지도 학습에 매우 효과적인 방법임을 시사합니다.

깊이 클러스터링과 측도 전파 | 최신 연구 논문 | HyperAI초신경