
초록
클러스터링 결과를 평가하는 것은 클러스터 분석의 중요한 부분입니다. 일반적인 비지도 학습에서 클러스터링에는 진짜 클래스 레이블이 없습니다. 따라서, 예측된 레이블과 데이터를 사용하는 여러 내부 평가 방법들이 개발되었습니다. 이러한 방법들은 내부 클러스터 유효성 지수(CVI)라고도 불립니다. 진짜 레이블 없이 효과적인 CVI를 설계하는 것은 쉽지 않으며, 이는 클러스터링 방법을 만드는 것과 유사합니다. 또한, 모든 데이터셋을 측정할 수 있는 보편적인 CVI는 존재하지 않고, 진짜 레이블 없는 클러스터에 적합한 CVI를 선택하기 위한 특정 방법도 없습니다. 따라서, 더 많은 CVI를 적용하여 클러스터링 결과를 평가하는 것이 필요합니다. 본 논문에서는 데이터 분리성 측정 기반의 새로운 CVI인 거리 기반 분리성 지수(DSI)를 제안합니다. 우리는 DSI와 Dunn(1974)부터 가장 최근의 연구인 CVDD(2019)까지 포함한 8개의 다른 내부 CVI들을 비교하기 위해 적용했습니다. 5개의 클러스터링 알고리즘으로 12개의 실제 데이터셋과 97개의 합성 데이터셋에 대한 클러스터링 결과를 외부 CVI로 기준 삼아 사용했습니다. 결과는 DSI가 다른 비교된 CVI들에 비해 효과적이고 독특하며 경쟁력 있다는 것을 보여주었습니다. 또한, CVI 평가의 일반적인 과정을 요약하고, CVI 결과를 비교하기 위한 새로운 방법인 순위 차이(rank difference) 방식을 제안하였습니다.