유사성 측정
유사성 지표이는 서로 다른 샘플 간의 유사성을 추정하는 데 사용되며 종종 분류 문제의 기준으로 사용됩니다. 머신 러닝과 데이터 마이닝에서는 개인 간의 유사점과 범주를 평가하기 위해 개인 간의 차이점의 크기를 아는 것이 종종 필요합니다.
현재 가장 널리 쓰이는 방법은 데이터 분석에서는 상관 분석, 데이터 마이닝에서는 분류 알고리즘과 클러스터링 알고리즘으로, K-최근접 이웃 알고리즘인 KNN, K-평균 K-Means 등이 있습니다. 다양한 데이터 특성에 따라 다양한 측정 방법을 사용할 수 있습니다.
거리 및 유사성 측정 항목
- 거리 측정기: 공간 상에서 사람 사이의 거리를 측정하는 데 사용됩니다. 거리가 멀수록 개인 간의 차이도 커집니다.
- 유사성 측정: 개인 간의 유사성을 계산합니다. 유사도 측정값이 작을수록 개인 간의 유사성은 작아지고 차이는 커집니다.
일반적으로 사용되는 유사도 측정 방법
- 벡터 공간에서의 코사인 유사성: 두 벡터 사이의 각도의 코사인 값을 개인 간 차이의 크기를 측정하는 척도로 사용합니다. 거리 측정법과 비교해 볼 때, 거리나 길이보다는 두 벡터 사이의 방향 차이에 더 많은 관심을 기울입니다.
- 피어슨 상관계수: 상관분석에서 상관계수 r은 X와 Y를 각각 표준화한 후 공간 벡터의 코사인 각도를 계산하여 계산합니다.
- 자카르드 계수: 주로 기호 측정과 부울 측정의 개체 간 유사성을 계산하는 데 사용됩니다. 개인의 특징적 속성은 기호적 측정이나 부울 값 식별에 기반을 두고 있기 때문에 차이의 구체적인 값을 측정하는 것은 불가능하며, 단지 "동일한가"라는 결론만 얻을 수 있습니다. 따라서 자카르드 계수는 개인들 간의 공통적인 특성만을 결정합니다.
- 조정된 코사인 유사도: 코사인 유사도가 수치 값에 둔감하면 결과에 편차가 생길 수 있습니다. 조정된 코사인 유사도는 주로 이러한 비이성성을 교정하는 데 사용됩니다. 즉, 모든 차원의 출력을 평균에서 뺍니다.