主成分分析主成分分析
主成分分析 PCA は、データセットを分析および簡素化するための手法であり、次元削減の考え方を使用して、複数の指標をより少ない包括的な指標に変換します。
PCA は 1901 年にカール ピアソンによって提案され、当初はデータの分析と数学的モデルの確立に使用され、主に共分散行列の固有分解を実行してデータの主成分とその重みを取得しました。
PCAアルゴリズムの実装
PCA の具体的な操作は、データの中心を見つけて、元のデータをデータ内の最も重要な要素で置き換えることです。たとえば、データ セットは n 次元であり、m 個のデータ (x (1), x (2) が含まれています。 ), …, x ( m ) )、これらの m データの次元を n 次元から n' 次元に削減すると仮定すると、これらの m 個の n' 次元データ セットが元のデータ セットを置き換えて、次の損失を削減します。同じ時間です。
PCAの応用例
- データ分析を詳しく見る
- データの前処理と次元削減
- データの圧縮と再構築
PCA アルゴリズムの長所と短所
PCA アルゴリズムの利点は次のとおりです。
- 情報量は分散によって測定するだけでよく、分散はデータセット以外の要因の影響を受けません。
- 主成分は直交しているため、元のデータ成分間の相互作用を排除できます。
- 計算方法はシンプルで、主な演算は固有値分解であり、実装も簡単です。
PCA アルゴリズムの欠点は次のとおりです。
- 主成分の各特徴次元の意味は曖昧であり、元のサンプル特徴ほど解釈可能ではありません。
- 分散が小さい成分には、サンプルの違いに影響を与える重要な情報が含まれている可能性があり、次元の削減と破棄はその後のデータ処理に影響を与える可能性があります。