초록
증거 누적 모델은 클러스터링 앙상블 방법에서 기저 파티션의 정보를 수집하는 접근 방식으로, 원래의 데이터 공간에서 공상관 행렬(co-association matrix)로의 커널 변환으로 볼 수 있다. 그러나 이 변환 과정에서 클러스터 구조 정보가 일부 손실될 수 있다. 따라서 기존 문헌에서는 손실된 정보를 복원하여 앙상블 과정에 반환하려는 방법들이 제안되어 왔다. 본 논문에서는 흥미로운 현상을 제시한다. 즉, 공상관 행렬에서 일부 증거를 제거하면 더 정확한 클러스터링 결과를 얻을 수 있다는 점이다. 이 현상의 직관적 설명은 원래 공상관 행렬 내 일부 증거가 노이즈에 해당하며, 최종 클러스터링에 부정적인 영향을 미칠 수 있다는 것이다. 그러나 실제로 이러한 증거를 탐지하는 것은 어렵고, 행렬에서 제거하는 것은 더욱 어렵다. 이 문제를 해결하기 위해, 기저 파티션에서 낮은 발생 빈도를 보이는 다수의 수준의 증거를 제거한다. 왜냐하면 부정적인 증거는 일반적으로 기저 파티션에서 규칙적으로 나타나지 않기 때문이다. 이후 정규화 절단(normalized cut)을 사용하여 다수의 클러스터링 결과를 도출한다. 최적의 앙상블 결과를 구별하기 위해, 공상관 행렬만을 이용하는 내부 타당성 지표를 특별히 설계하였다. 16개 데이터셋에 대한 실험 결과는 제안된 방법이 일부 최신 기술보다 우수한 성능을 보임을 입증한다.