主成分分析 PCA 是一种分析、简化数据集的技术,其利用降维思想,把多指标转化为较少的综合指标,PCA 是将特征量分析作为多元统计分布的方法。
PCA 由卡尔·皮尔逊于 1901 年提出,最初用于分析数据和建立数理模型,其主要通过对协方差矩阵进行特征分解,以得出数据的主成分与它们的权值。
PCA 算法的实现
PCA 的具体操作是找出数据的中心,用数据中最主要的因素替代原始数据,例如数据集是 n 维的,其中包含 m 个数据 ( x ( 1 ) , x ( 2 ) , … , x ( m ) ) ,假设希望将这 m 个数据的维度从 n 维降到 n’ 维,那么这 m 个 n’ 维的数据集将替代原始数据集,同时降低损失。
PCA 的应用
PCA 算法的优缺点
PCA 算法的优点有:
- 只需以方差衡量信息量,不受数据集以外的因素影响;
- 各主成分之间正交,可消除原始数据成分间的相互影响;
- 计算方法简单,主要运算是特征值分解且易于实现。
PCA 算法的缺点有:
- 主成分各特征维度的含义具有模糊性,不如原始样本特征的解释性强;
- 方差小的成分可能含有影响样本差异的重要信息,降维丢弃可能对后续数据处理有影响。