HyperAI超神经

非度量距离 Non-Metric Distance

非度量距离是指不满足直递性的参数间的距离。

直递性是指,对于三个对象 a , b, c , 满足 a 到 c 的距离加上 c 到 b 的距离大于等于 a 直接到 b 的距离;

通常我们是基于某种形式的距离来定义相似度度量的,距离越大,则相似度越小。

非度量距离与距离计算

对于距离函数 ,若它是一个 “距离度量”,则需满足以下一些基本性质:

  • 非负性:两点之间距离不为负;
  • 同一性:两个点只有在样本空间上重合才可能距离为零;
  • 对称性:a 到 b 的距离等于 b 到 a 的距离;
  • 直递性:a 到 c 的距离加上 c 到 b 的距离大于等于 a 直接到 b 的距离;

在连续属性上,它们之间的距离一般通过 “闵科夫斯基距离” 来计算。

在离散属性上,对有序取值,可以同样用 “闵科夫斯基距离” 来计算,但当取值为无序时,如 { 苹果, 香蕉, 桃子 },使用 VDM(Value Difference Metric)来计算。

VDMp (a, b) 代表的是在属性 u 上,取值为 a 和 b 的样本在不同簇上分布比例的差值的 p 次方。它是通过分布比例的不同来对属性上的相似度来进行近似的。

非度量距离的距离计算,需要基于数据样本来确定合适的距离计算式。