HyperAI超神经

首页资讯最新论文教程数据集百科 SOTA LLM 模型天梯 GPU 天梯顶会

中文

HyperAI超神经

相似度度量 Similarity Measure

相似度度量用于估算不同样本之间的相似程度，常作为分类问题的判断标准，机器学习和数据挖掘中常需要知道个体间差异的大小，进而评价个体的相似性和类别。

目前常见的是数据分析中的相关分析，数据挖掘中的分类算法和聚类算法，如 K-最近邻算法 KNN 和 K-均值 K-Means 等，可根据数据特性的不同，采用不同的度量方法。

距离度量和相似度度量

距离度量 Distance Measure：用于衡量个体在空间上存在的距离，距离越远说明个体间差异越大；
相似度度量 Similarity Measure：计算个体间的相似程度，相似度度量的值越小，说明个体间相似度越小，差异越大。

常用相似度度量方法

向量空间余弦相似度 Cosine Similarity：利用两个向量夹角的余弦值作为衡量个体间差异的大小，相比距离度量更注重两个向量在方向上的差异，而非距离或长度上；
皮尔森相关系数 Pearson Correlation Coefficient：相关分析中的相关系数 r ，分别对 X 和 Y 进行总体标准化后计算空间向量的余弦夹角；
Jaccard 相似系数 Jaccard Coefficient：主要用于计算符号度量、布尔值度量的个体间相似度，由于个体的特征属性基于符号度量或布尔值标识，因此无法衡量差异具体值大小，只能获得「是否相同」的结论，故 Jaccard 系数只判断个体间的共同特征；
调整余弦相似度 Adjusted Cosine Similarity：余弦相似度对数值的不敏感会导致结果产生偏差，调整余弦相似度主要用于修正这种不合理性，即所有维度上的输出都减去一个均值。

相关词：距离度量