HyperAI超神経

K 平均法クラスタリングk 平均法クラスタリング

K 平均法クラスタリング初期の信号処理に使用されていたベクトル量子化手法で、現在はクラスター分析手法として主にデータマイニングの分野で活躍しています。

k-means クラスタリングの目的は、n 個の点を k 個のクラスタに分割し、各点が最も近い平均に対応するクラスタに属するようにし、これをクラスタリングの基準として使用することです。このタイプの問題は、問題を分割するものとして理解できます。データ空間をボロノイセルに分割する方法は、主に 2 次元のデータ ポイントをクラスタリングするために使用されます。

主な手順

1. k 点を初期質点として選択します。

2. 手順を繰り返します。

  • 各ポイントを最も近い重心にディスパッチして k 個のクラスターを形成します。
  • 各クラスターの重心を再計算します。

3. クラスターが変化しなくなるか、最大反復回数に達するまで。

距離測定と目的関数

ユークリッド距離の関数を考慮し、クラスタリングの目的関数として誤差の二乗和を使用します。

メリットとデメリット

利点: K 平均法アルゴリズムは、クラスタリング問題の古典的なアルゴリズムであり、大量のデータに対して比較的高いアルゴリズム効率を備えており、通常は局所最適終了アルゴリズムとして使用されます。クラスターが密で丸くてゴツゴツしていて、クラスター間の違いが明らかな場合、クラスター化効果はより高くなります。

欠点: ユーザーは事前に生成するクラスターの数 k を指定する必要があります。アルゴリズムは初期値に敏感であり、初期値が異なると、ノイズ データや孤立点データの影響を受けやすくなります。少量のデータは平均値に影響を与えますが、大きな影響を与えます。

参考文献

【1】K 平均法アルゴリズム - ウィキペディア

【2】http://hometown.group/wp-content/uploads/2018/07/%E8%81%9A%E7%B1%BB.pdf