類似性の尺度 類似性の尺度
類似性の尺度これは、異なるサンプル間の類似度を推定するために使用され、機械学習やデータ マイニングでは、個人間の差異の大きさを知り、類似性を評価する必要があることがよくあります。そして個人のカテゴリー。
現在一般的なものは、データ分析における関連分析、K 最近傍アルゴリズム KNN や K 平均法 K 平均法などのデータ マイニングにおける分類アルゴリズムとクラスタリング アルゴリズムです。さまざまなデータの特性に応じて、さまざまな測定方法を使用できます。
距離測定と類似性測定
- 距離測定: 空間内の個人間の距離を測定するために使用され、距離が遠いほど個人間の差が大きくなります。
- 類似性尺度: 個人間の類似度を計算します。類似性尺度の値が小さいほど、類似性は小さくなり、個人間の差異は大きくなります。
一般的に使用される類似性測定方法
- ベクトル空間コサイン類似度: 2 つのベクトル間の角度のコサイン値は、距離測定と比較して、距離や長さよりも 2 つのベクトルの方向の違いに注目します。
- ピアソン相関係数: 相関分析の相関係数 r は、X と Y をそれぞれ全体的に正規化した後、空間ベクトルのコサイン角を計算します。
- Jaccard 類似性係数 Jaccard 係数: 主に、記号的尺度とブール値の尺度における個人間の類似性を計算するために使用されます。個人の特性属性は記号的尺度またはブール値の識別に基づいているため、差の具体的な値を測定することはできません。そして「同じかどうか」という結論しか得られないため、ジャッカード係数は個人間の共通の特性を決定するだけです。
- 調整されたコサイン類似度: コサイン類似度が数値に鈍感であるため、偏った結果が生じます。調整されたコサイン類似度は、主にこの不合理性を修正するために使用されます。つまり、すべての次元の出力が平均から減算されます。