11일 전

k-평균 클러스터링 성능 향상을 위한 분리된 내부 표현의 활용

Abien Fred Agarap, Arnulfo P. Azcarraga
k-평균 클러스터링 성능 향상을 위한 분리된 내부 표현의 활용
초록

딥 클러스터링 알고리즘은 클러스터링 손실과 비클러스터링 손실을 함께 최적화함으로써 표현 학습과 클러스터링을 결합한다. 이러한 방법에서는 딥 신경망을 표현 학습용으로 사용하고, 별도의 클러스터링 네트워크를 함께 활용한다. 이 프레임워크를 따르는 대신 클러스터링 성능을 향상시키기 위해, 우리는 오토인코더가 학습한 잠재 표현 코드의 엔태그램(entanglement)을 최적화하는 더 간단한 접근법을 제안한다. 여기서 엔태그램은 동일한 클래스 또는 구조에 속한 점들의 쌍이 서로 얼마나 가까운지를, 다른 클래스 또는 구조에 속한 점들의 쌍과 비교하여 정의한다. 데이터 포인트의 엔태그램을 측정하기 위해 우리는 소프트 최근접 이웃 손실(soft nearest neighbor loss)을 사용하며, 이를 온도 조절 인자(annealing temperature factor)를 도입함으로써 확장한다. 제안하는 방법을 사용하여, MNIST 데이터셋에서 테스트 클러스터링 정확도는 96.2%, Fashion-MNIST 데이터셋에서는 85.6%, EMNIST Balanced 데이터셋에서는 79.2%를 달성하였으며, 기준 모델들을 모두 상회하는 성능을 보였다.

k-평균 클러스터링 성능 향상을 위한 분리된 내부 표현의 활용 | 최신 연구 논문 | HyperAI초신경