HyperAI超神经

主成分分析 Principal Components Analysis

主成分分析 PCA 是一种分析、简化数据集的技术,其利用降维思想,把多指标转化为较少的综合指标,PCA 是将特征量分析作为多元统计分布的方法。

PCA 由卡尔·皮尔逊于 1901 年提出,最初用于分析数据和建立数理模型,其主要通过对协方差矩阵进行特征分解,以得出数据的主成分与它们的权值。

PCA 算法的实现

PCA 的具体操作是找出数据的中心,用数据中最主要的因素替代原始数据,例如数据集是 n 维的,其中包含 m 个数据 ( x ( 1 ) , x ( 2 ) , … , x ( m ) ) ,假设希望将这 m 个数据的维度从 n 维降到 n’ 维,那么这 m 个 n’ 维的数据集将替代原始数据集,同时降低损失。

PCA 的应用

  • 探索数据分析
  • 数据预处理和降维
  • 数据压缩和重建

PCA 算法的优缺点

PCA 算法的优点有:

  • 只需以方差衡量信息量,不受数据集以外的因素影响;
  • 各主成分之间正交,可消除原始数据成分间的相互影响;
  • 计算方法简单,主要运算是特征值分解且易于实现。

PCA 算法的缺点有:

  • 主成分各特征维度的含义具有模糊性,不如原始样本特征的解释性强;
  • 方差小的成分可能含有影响样本差异的重要信息,降维丢弃可能对后续数据处理有影响。