Mesure De Similarité
Mesures de similaritéIl est utilisé pour estimer la similarité entre différents échantillons et est souvent utilisé comme critère pour les problèmes de classification. Dans l’apprentissage automatique et l’exploration de données, il est souvent nécessaire de connaître l’ampleur des différences entre les individus afin d’évaluer les similitudes et les catégories d’individus.
Actuellement, les plus courants sont l'analyse de corrélation dans l'analyse de données, les algorithmes de classification et les algorithmes de clustering dans l'exploration de données, tels que l'algorithme K-plus proche voisin KNN et K-means K-Means, etc. Différentes méthodes de mesure peuvent être utilisées en fonction de différentes caractéristiques des données.
Mesures de distance et de similarité
- Mesure de distance : Elle est utilisée pour mesurer la distance entre les individus dans l'espace. Plus la distance est grande, plus la différence entre les individus est grande.
- Mesure de similarité : calcule la similarité entre les individus. Plus la valeur de la mesure de similarité est petite, plus la similarité entre les individus est faible et plus la différence est grande.
Méthodes de mesure de similarité couramment utilisées
- Similarité cosinus dans l'espace vectoriel : elle utilise la valeur cosinus de l'angle entre deux vecteurs comme mesure de la taille de la différence entre les individus. Par rapport à la mesure de distance, elle se concentre davantage sur la différence de direction entre deux vecteurs plutôt que sur la distance ou la longueur.
- Coefficient de corrélation de Pearson : Le coefficient de corrélation r dans l'analyse de corrélation, qui est calculé en standardisant respectivement X et Y, puis en calculant l'angle cosinus du vecteur spatial ;
- Coefficient de Jaccard : Il est principalement utilisé pour calculer la similarité entre les individus de mesure symbolique et de mesure booléenne. Étant donné que les attributs caractéristiques des individus sont basés sur une mesure symbolique ou une identification de valeur booléenne, il est impossible de mesurer la valeur spécifique de la différence, et seule la conclusion de « s'ils sont identiques » peut être obtenue. Le coefficient de Jaccard détermine donc uniquement les caractéristiques communes entre les individus.
- Similarité cosinus ajustée : L'insensibilité de la similarité cosinus aux valeurs numériques peut entraîner des écarts dans les résultats. La similarité cosinus ajustée est principalement utilisée pour corriger cette irrationalité, c'est-à-dire que les sorties dans toutes les dimensions sont soustraites d'une moyenne.