HyperAI

Ähnlichkeitsmaß

ÄhnlichkeitsmetrikenEs dient der Abschätzung der Ähnlichkeit zwischen verschiedenen Stichproben und wird häufig als Kriterium bei Klassifizierungsproblemen verwendet. Beim maschinellen Lernen und Data Mining ist es oft notwendig, die Größe der Unterschiede zwischen Individuen zu kennen, um die Ähnlichkeiten und Kategorien von Individuen bewerten zu können.

Derzeit sind Korrelationsanalysen in der Datenanalyse, Klassifizierungsalgorithmen und Clustering-Algorithmen im Data Mining am gebräuchlichsten, wie etwa der K-Nearest-Neighbor-Algorithmus (KNN) und K-Means (K-Means) usw. Je nach Datenmerkmalen können unterschiedliche Messmethoden verwendet werden.

Distanz- und Ähnlichkeitsmetriken

  • Distanzmaß: Wird verwendet, um die Distanz zwischen Personen im Raum zu messen. Je größer die Distanz, desto größer der Unterschied zwischen den Individuen.
  • Ähnlichkeitsmaß: Berechnet die Ähnlichkeit zwischen Individuen. Je kleiner der Wert des Ähnlichkeitsmaßes ist, desto geringer ist die Ähnlichkeit zwischen den Individuen und desto größer ist der Unterschied.

Häufig verwendete Methoden zur Ähnlichkeitsmessung

  • Kosinus-Ähnlichkeit im Vektorraum: Dabei wird der Kosinuswert des Winkels zwischen zwei Vektoren als Maß für die Größe der Unterschiede zwischen Individuen verwendet. Im Vergleich zur Distanzmetrik konzentriert es sich eher auf den Richtungsunterschied zwischen zwei Vektoren als auf die Entfernung oder Länge.
  • Pearson-Korrelationskoeffizient: Der Korrelationskoeffizient r in der Korrelationsanalyse, der berechnet wird, indem X bzw. Y standardisiert und dann der Kosinuswinkel des Raumvektors berechnet wird;
  • Jaccard-Koeffizient: Wird hauptsächlich verwendet, um die Ähnlichkeit zwischen Individuen mit symbolischer Messung und Boolescher Messung zu berechnen. Da die charakteristischen Eigenschaften einzelner Personen auf symbolischen Messungen oder der Identifizierung boolescher Werte beruhen, ist es unmöglich, den spezifischen Wert des Unterschieds zu messen, und man kann nur die Schlussfolgerung ziehen, „ob sie gleich sind“. Daher bestimmt der Jaccard-Koeffizient nur die gemeinsamen Merkmale zwischen Individuen.
  • Angepasste Kosinusähnlichkeit: Die Unempfindlichkeit der Kosinusähnlichkeit gegenüber numerischen Werten kann zu Abweichungen in den Ergebnissen führen. Um diese Irrationalität zu korrigieren, wird vor allem die angepasste Kosinusähnlichkeit verwendet, d. h. die Ergebnisse aller Dimensionen werden von einem Mittelwert subtrahiert.
Verwandte Wörter / Bedeutung: distanzmetrik