k-평균 클러스터링이는 초창기 신호처리에 사용되었던 벡터 양자화 방법입니다. 현재는 주로 데이터 마이닝 분야에서 클러스터링 분석 방법으로 사용되고 있습니다.
k-평균 클러스터링의 목적은 n개의 점을 k개의 클러스터로 나누어 각 점이 가장 가까운 평균에 해당하는 클러스터에 속하도록 하고, 이를 클러스터링 기준으로 사용하는 것입니다. 이러한 유형의 문제는 데이터 공간을 보로노이 셀로 나누는 문제로 이해할 수 있으며, 주로 2차원 데이터 포인트를 클러스터링하는 데 사용됩니다.
주요 단계
1. k개의 점을 초기 질량점으로 선택합니다.
2. 다음 단계를 반복합니다.
- 각 지점을 가장 가까운 중심에 할당하여 k개의 클러스터를 형성합니다.
- 각 클러스터의 중심을 다시 계산합니다.
3. 클러스터가 변경되지 않거나 최대 반복 횟수에 도달할 때까지.
거리 측정법과 목적 함수
유클리드 거리 함수를 고려하고 제곱 오차의 합을 클러스터링의 목적 함수로 사용합니다.
장단점
장점: k-평균 알고리즘은 클러스터링 문제를 해결하는 고전적인 알고리즘입니다. 이 알고리즘은 간단하고 빠르며, 대량의 데이터에 대해 알고리즘 효율성이 비교적 높습니다. 높은 확장성으로 인해 일반적으로 지역 최적 종료 알고리즘으로 사용됩니다. 클러스터가 밀집되어 있고 둥글며 뭉쳐 있을 때 클러스터링 효과가 더 좋으며, 클러스터 간 차이가 명확합니다.
단점: 사용자는 생성할 클러스터의 개수 k를 미리 지정해야 합니다. 알고리즘은 초기값에 민감하며, 초기값이 다르면 클러스터링 결과도 달라집니다. 노이즈 데이터와 고립된 지점 데이터에 민감하며, 적은 양의 데이터도 평균값에 큰 영향을 미칩니다.
참고문헌
【1】k-평균 알고리즘 - 위키피디아
【2】http://hometown.group/wp-content/uploads/2018/07/%E8%81%9A%E7%B1%BB.pdf