特征选择 Feature Selection
特征选择 (Feature Selection) 是隔离最一致、非冗余和相关特征子集以用于模型构建的过程。随着数据集的大小和种类不断增长,有条不紊地减小数据集的大小非常重要。特征选择的主要目标是提高预测模型的性能并降低建模的计算成本。
特征选择的使用示例
特征选择是一种有效的预处理技术,适用于各种实际应用,例如文本分类、遥感、图像检索、微阵列分析、质谱分析、序列分析等。
以下是一些现实生活中特征选择的示例:
- 乳腺 X 线摄影图像分析
- 犯罪行为建模
- 基因组数据分析
- 平台监控
- 机械完整性评估
- 文本聚类
- 高光谱图像分类
- 序列分析
特征选择的重要性
在机器学习过程中,使用特征选择可以使过程更加准确,它还通过选择最关键的变量并消除冗余和不相关的变量来提高算法的预测能力。这就是为什么特征选择很重要。
特征选择的三个主要好处是:
- 减少过度拟合更少的
冗余数据意味着更少的基于噪声做出决策的机会。 - 提高准确性
更少的误导性数据意味着更高的建模准确性。 - 减少训练时间
更少的数据意味着更快的算法。
特征选择的方法
特征选择算法分为有监督和无监督:有监督的可用于标记数据,无监督的可用于未标记的数据。无监督技术分为过滤器方法、包装器方法、嵌入方法或混合方法:
- 过滤方法:过滤方法根据统计数据而不是特征选择交叉验证性能来选择特征。应用选定的度量来识别不相关的属性并执行递归特征选择。过滤方法可以是单变量的,其中建立特征的有序排序列表以通知特征子集的最终选择;或多变量,它评估整个特征的相关性,识别冗余和不相关的特征。
- 包装方法:包装特征选择方法将一组特征的选择视为搜索问题,通过准备、评估以及特征组合与其他特征组合的比较来评估特征的质量。该方法有助于检测变量之间可能的相互作用。包装方法侧重于特征子集,这将有助于提高用于选择的聚类算法的结果质量。流行的例子包括 Boruta 特征选择和 Forward 特征选择。
- 嵌入式方法:嵌入式特征选择方法将特征选择机器学习算法集成为学习算法的一部分,其中分类和特征选择同时进行。仔细提取对模型训练过程的每次迭代贡献最大的特征。随机森林特征选择、决策树特征选择、 LASSO 特征选择是常见的嵌入方法。
参考来源
【1】https://www.heavy.ai/technical-glossary/feature-selection