계층적 클러스터링
계층적 클러스터링은 아래에서 위로 지속적으로 병합하거나 위에서 아래로 지속적으로 분할하여 중첩된 클러스터를 형성하는 알고리즘의 모음입니다. 이러한 계층적 클래스는 "덴드로그램"으로 표현되며, 응집형 클러스터링 알고리즘이 그 중 하나입니다.
계층적 클러스터링은 샘플 데이터를 서로 다른 "수준"에서 나누고 이를 계층별로 클러스터링하는 것을 시도합니다. 클러스터링 트리에서 다양한 범주의 원본 데이터 포인트는 트리의 맨 아래에 있고, 클러스터의 루트 노드는 트리의 맨 위 계층입니다.
계층적 클러스터링의 분류
현재 클러스터링 트리를 만드는 방법에는 하향식 병합과 상향식 분할의 두 가지가 있습니다.
계층적 클러스터링의 병합 알고리즘은 주로 두 가지 유형의 데이터 포인트 간의 유사도를 계산하고, 모든 데이터 포인트 중에서 가장 유사한 두 데이터 포인트를 결합하고 이를 반복적으로 반복합니다. 간단히 말해서, 알고리즘은 데이터 포인트 사이의 거리를 계산하여 유사성을 판별합니다. 거리가 작을수록 유사성은 높아집니다. 가장 가까운 거리에 있는 두 개의 데이터 포인트 또는 범주를 결합하여 클러스터링 트리를 생성합니다.