相似度度量 Similarity Measure

相似度度量用于估算不同样本之间的相似程度,常作为分类问题的判断标准,机器学习和数据挖掘中常需要知道个体间差异的大小,进而评价个体的相似性和类别。

目前常见的是数据分析中的相关分析,数据挖掘中的分类算法和聚类算法,如 K-最近邻算法 KNN 和 K-均值 K-Means 等,可根据数据特性的不同,采用不同的度量方法。

距离度量和相似度度量

  • 距离度量 Distance Measure:用于衡量个体在空间上存在的距离,距离越远说明个体间差异越大;
  • 相似度度量 Similarity Measure:计算个体间的相似程度,相似度度量的值越小,说明个体间相似度越小,差异越大。

常用相似度度量方法

  • 向量空间余弦相似度 Cosine Similarity:利用两个向量夹角的余弦值作为衡量个体间差异的大小,相比距离度量更注重两个向量在方向上的差异,而非距离或长度上;
  • 皮尔森相关系数 Pearson Correlation Coefficient:相关分析中的相关系数 r ,分别对 X 和 Y 进行总体标准化后计算空间向量的余弦夹角;
  • Jaccard 相似系数 Jaccard Coefficient:主要用于计算符号度量、布尔值度量的个体间相似度,由于个体的特征属性基于符号度量或布尔值标识,因此无法衡量差异具体值大小,只能获得 「是否相同」  的结论,故 Jaccard 系数只判断个体间的共同特征;
  • 调整余弦相似度 Adjusted Cosine Similarity:余弦相似度对数值的不敏感会导致结果产生偏差,调整余弦相似度主要用于修正这种不合理性,即所有维度上的输出都减去一个均值。
相关词:距离度量