Nicht-metrische Distanz
Nichtmetrische DistanzEs bezieht sich auf die Distanz zwischen Parametern, die nicht direkt sind.
Direktheit bedeutet, dass bei drei Objekten a, b, c die Entfernung von a nach c plus die Entfernung von c nach b größer oder gleich der Entfernung von a direkt nach b ist;
Normalerweise definieren wir Ähnlichkeitsmaße auf der Grundlage einer Form von Distanz: Je größer die Distanz, desto geringer die Ähnlichkeit.
Nichtmetrische Distanz und Distanzberechnung
Wenn es sich bei einer Distanzfunktion um eine „Distanzmetrik“ handelt, muss sie die folgenden grundlegenden Eigenschaften erfüllen:
- Nicht-Negativität: Der Abstand zwischen zwei Punkten ist nicht negativ;
- Identität: Zwei Punkte können nur dann einen Abstand von Null haben, wenn sie im Stichprobenraum zusammenfallen;
- Symmetrie: Der Abstand von a nach b ist gleich dem Abstand von b nach a;
- Direktheit: Die Entfernung von a nach c plus die Entfernung von c nach b ist größer oder gleich der Entfernung von a direkt nach b;
Bei kontinuierlichen Attributen wird der Abstand zwischen ihnen im Allgemeinen mit der „Minkowski-Distanz“ berechnet.
Bei diskreten Attributen kann die Minkowski-Distanz auch zur Berechnung der geordneten Werte verwendet werden. Wenn die Werte jedoch ungeordnet sind, z. B. {Apfel, Banane, Pfirsich}, wird zur Berechnung VDM (Value Difference Metric) verwendet.
VDMp (a, b) stellt die p-te Potenz der Differenz im Verteilungsverhältnis von Stichproben mit Werten a und b in verschiedenen Clustern auf Attribut u dar. Es approximiert die Ähnlichkeit von Attributen durch unterschiedliche Verteilungsverhältnisse.
Bei der Entfernungsberechnung nichtmetrischer Entfernungen muss die entsprechende Entfernungsberechnungsformel anhand von Datenproben ermittelt werden.